Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Solving to Verifying: A Unified Objective for Robust Reasoning in LLMs

Created by
  • Haebom
Category
Empty

저자

Xiaoxuan Wang, Bo Liu, Song Jiang, Jingzhou Liu, Jingyuan Qi, Xia Chen, Baosheng He

개요

대규모 언어 모델(LLM)의 추론 능력은 강화 학습(RL)을 통해 크게 향상되었지만, LLM은 여전히 자체 추론 과정을 일관되게 검증하는 데 어려움을 겪습니다. 본 연구는 LLM의 자기 검증 능력을 어떻게 향상시키고, 이러한 능력이 추론 성능을 더욱 향상시킬 수 있는지에 대한 연구 질문을 제기합니다. 본 연구에서는 솔루션 생성과 자기 검증을 통합된 손실 함수 내에서 공동으로 최적화하는 알고리즘인 GRPO-Verif를 제안하며, 검증 신호의 가중치를 제어하는 조절 가능한 하이퍼파라미터를 사용합니다. 실험 결과는 본 연구의 방법론이 추론 성능을 유지하면서 자기 검증 능력을 향상시키는 것을 보여줍니다.

시사점, 한계점

GRPO-Verif 알고리즘 제안: 솔루션 생성 및 자기 검증을 통합한 새로운 방법론 제시
자기 검증 능력 향상: 제안된 방법론을 통해 LLM의 자기 검증 능력 향상 확인
추론 성능 유지: 기존 추론 성능을 유지하면서 자기 검증 능력 향상
단일 손실 함수 사용: 검증 신호 가중치를 조절 가능한 하이퍼파라미터로 제어
LLM의 일관된 추론 과정 검증 어려움: 자기 검증 능력 개선의 필요성을 보여줌
👍