Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

Created by

Haebom

저자

Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini

💡 개요

기존 강화학습(RL) 기반 LLM 파인튜닝 방식은 학습된 가치 함수를 버리고 경험적으로 추정된 리턴을 사용하는데, 이는 테스트 시 가치 함수를 활용한 검증에 필요한 컴퓨팅 자원 확장성을 저해합니다. 본 논문은 "가치 함수 없는" RL 방법에 RL$^V$ 를 제안하여, RL 생성 데이터를 사용하여 LLM을 추론자와 생성적 검증자(verifier)로 함께 학습시킴으로써 검증 기능을 추가하고 테스트 시 컴퓨팅 자원 확장성을 확보합니다.

🔑 시사점 및 한계

•

기존 RL 방법론에서 버려지던 가치 함수를 효과적으로 재활용하여 테스트 시 검증을 통한 성능 향상 및 컴퓨팅 자원 확장성을 가능하게 합니다.

•

MATH 데이터셋에서 20% 이상의 정확도 향상을 보였으며, 병렬 샘플링 시 기본 RL 방식 대비 8-32배의 효율적인 테스트 시 컴퓨팅 자원 확장이 가능합니다.

•

쉬운 문제부터 어려운 문제까지, 그리고 학습 데이터셋 범위를 벗어나는(out-of-domain) 태스크에 대해서도 뛰어난 일반화 성능을 보입니다.

•

본 연구에서 제안된 RL$^V$ 방법론의 근본적인 한계점이나 향후 연구 방향에 대한 구체적인 언급은 초록에서 부족합니다. 특히, 검증자 학습의 추가적인 오버헤드나 복잡성에 대한 심층적인 분석이 더 필요할 수 있습니다.

PDF 보기

Made with Slashpage