Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Incentivizing LLMs to Self-Verify Their Answers

Created by
  • Haebom

저자

Fuxiang Zhang, Jiacheng Xu, Chaojie Wang, Ce Cui, Yang Liu, Bo An

개요

본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 과제 성능 향상을 위한 새로운 프레임워크를 제시한다. 기존의 테스트 시간 확장 기법은 외부 보상 모델에 의존하여 모델 생성 과정을 유도하지만, 특정 추론 과제에 사후 훈련된 모델의 성능 향상은 미미하다는 점을 발견했다. 이는 사후 훈련된 생성 모델과 일반적인 보상 모델 간의 분포 불일치 때문이라고 분석한다. 따라서, 본 논문에서는 LLM이 스스로 답변을 검증하도록 유도하는 프레임워크를 제안한다. 답변 생성과 검증을 단일 강화 학습(RL) 과정으로 통합하여, 자체 솔루션의 정확성을 효과적으로 평가할 수 있는 모델을 훈련한다. 훈련된 모델은 외부 검증자 없이도 추론 시 자체 생성물을 검증하여 성능을 확장할 수 있다. Qwen2.5-Math-7B 및 DeepSeek-R1-Distill-Qwen-1.5B를 기반으로 모델을 훈련하고, 다양한 추론 컨텍스트 길이에 걸쳐 성능을 실험적으로 검증한다. 여러 수학적 추론 벤치마크에서 사후 훈련 성능 향상과 효과적인 테스트 시간 확장이 가능함을 보여준다. 코드는 https://github.com/mansicer/self-verification 에서 공개한다.

시사점, 한계점

시사점:
LLM의 추론 능력 향상을 위한 새로운 접근법 제시: 외부 보상 모델에 대한 의존성을 줄이고, 모델 자체의 검증 능력을 향상시킴으로써 성능 개선을 달성.
사후 훈련 성능 향상 및 효과적인 테스트 시간 확장 가능성 증명: 다양한 벤치마크에서 실험적으로 검증된 결과 제시.
모델의 자가 검증 능력을 활용한 추론 성능 향상: 외부 검증자 없이도 모델 자체적으로 답변의 정확성을 평가하고 성능을 향상시킬 수 있음.
한계점:
제안된 프레임워크의 일반화 성능: 특정 수학적 추론 과제에 국한된 실험 결과로, 다른 유형의 추론 과제에 대한 일반화 성능은 추가적인 연구가 필요함.
훈련 데이터 및 모델 크기의 영향: 특정 모델과 데이터셋을 사용한 실험 결과이므로, 다른 모델이나 데이터셋에 대한 성능은 다를 수 있음.
자가 검증의 신뢰성 문제: 모델이 스스로의 답변을 검증하는 과정에서 발생할 수 있는 오류 가능성에 대한 추가적인 분석 필요.
👍