Fuxiang Zhang, Jiacheng Xu, Chaojie Wang, Ce Cui, Yang Liu, Bo An
개요
본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 과제 성능 향상을 위한 새로운 프레임워크를 제시한다. 기존의 테스트 시간 확장 기법은 외부 보상 모델에 의존하여 모델 생성 과정을 유도하지만, 특정 추론 과제에 사후 훈련된 모델의 성능 향상은 미미하다는 점을 발견했다. 이는 사후 훈련된 생성 모델과 일반적인 보상 모델 간의 분포 불일치 때문이라고 분석한다. 따라서, 본 논문에서는 LLM이 스스로 답변을 검증하도록 유도하는 프레임워크를 제안한다. 답변 생성과 검증을 단일 강화 학습(RL) 과정으로 통합하여, 자체 솔루션의 정확성을 효과적으로 평가할 수 있는 모델을 훈련한다. 훈련된 모델은 외부 검증자 없이도 추론 시 자체 생성물을 검증하여 성능을 확장할 수 있다. Qwen2.5-Math-7B 및 DeepSeek-R1-Distill-Qwen-1.5B를 기반으로 모델을 훈련하고, 다양한 추론 컨텍스트 길이에 걸쳐 성능을 실험적으로 검증한다. 여러 수학적 추론 벤치마크에서 사후 훈련 성능 향상과 효과적인 테스트 시간 확장이 가능함을 보여준다. 코드는 https://github.com/mansicer/self-verification 에서 공개한다.