Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers
Created by
Haebom
저자
Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini
개요
본 논문은 대규모 언어모델(LLM) 추론기를 미세 조정하기 위한 기존 강화학습(RL) 방법들이 학습된 가치 함수 대신 경험적으로 추정된 수익을 사용하는 문제점을 지적합니다. 이는 가치 함수를 활용한 검증에 의존하는 테스트 시간 계산 확장을 저해합니다. 따라서 본 논문에서는 RL$^V$를 제안합니다. RL$^V$는 임의의 "가치 없는" RL 방법에 LLM을 추론기이자 생성적 검증기로 동시에 학습시키는 방식으로 강화하며, RL로 생성된 데이터를 사용하여 추가적인 검증 기능을 큰 오버헤드 없이 추가합니다.
시사점, 한계점
•
시사점:
◦
RL$^V$는 병렬 샘플링을 통해 MATH 정확도를 20% 이상 향상시킵니다.
◦
기존 RL 방법과 비교하여 8~32배 효율적인 테스트 시간 계산 확장을 가능하게 합니다.
◦
쉬운 문제부터 어려운 문제, 그리고 도메인 외부 문제까지 강력한 일반화 성능을 보입니다.
◦
긴 추론 R1 모델을 사용하여 병렬 및 순차적 테스트 시간 계산을 동시에 확장할 때 1.2~1.6배 높은 성능을 달성합니다.
•
한계점:
◦
논문에서 구체적인 한계점이 명시적으로 제시되지 않았습니다. 추가적인 실험이나 분석을 통해 한계점을 밝힐 필요가 있습니다. (예: 특정 유형의 문제에 대한 취약성, 특정 LLM 아키텍처에 대한 의존성 등)