From Solving to Verifying: A Unified Objective for Robust Reasoning in LLMs
Created by
Haebom
Category
Empty
저자
Xiaoxuan Wang, Bo Liu, Song Jiang, Jingzhou Liu, Jingyuan Qi, Xia Chen, Baosheng He
개요
대규모 언어 모델(LLM)의 추론 능력은 강화 학습(RL)을 통해 크게 향상되었지만, LLM은 여전히 자체 추론 과정을 일관되게 검증하는 데 어려움을 겪습니다. 본 연구는 LLM의 자기 검증 능력을 어떻게 향상시키고, 이러한 능력이 추론 성능을 더욱 향상시킬 수 있는지에 대한 연구 질문을 제기합니다. 본 연구에서는 솔루션 생성과 자기 검증을 통합된 손실 함수 내에서 공동으로 최적화하는 알고리즘인 GRPO-Verif를 제안하며, 검증 신호의 가중치를 제어하는 조절 가능한 하이퍼파라미터를 사용합니다. 실험 결과는 본 연구의 방법론이 추론 성능을 유지하면서 자기 검증 능력을 향상시키는 것을 보여줍니다.
시사점, 한계점
•
GRPO-Verif 알고리즘 제안: 솔루션 생성 및 자기 검증을 통합한 새로운 방법론 제시