강화 학습과 검증 가능한 보상(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 잠재력을 보였지만, 정답이 있는 수학 및 프로그래밍과 같은 도메인에만 국한되었습니다. 본 논문은 명확한 정답이 없는 열린 문제(예: 창작 글쓰기, 지시 따르기)에서 추론 능력 강화가 성능을 향상시킬 수 있는지 탐구합니다. 이를 위해, RLVR 패러다임을 열린 도메인에 적용하고자 하며, 이를 위해 검증 가능한 복수 선택 재구성(VMR)이라는 새로운 훈련 전략을 제시합니다. VMR은 열린 문제 데이터를 검증 가능한 복수 선택 형식으로 재구성하여 명시적인 정답이 없는 경우에도 효과적인 훈련을 가능하게 합니다. 여러 벤치마크에서 VMR 기반 훈련은 기준선 대비 평균 5.99점 향상을 보였습니다.
시사점, 한계점
•
시사점:
◦
RLVR 패러다임을 열린 문제에 적용하여 LLM의 성능을 향상시키는 새로운 접근 방식을 제시.
◦
VMR이라는 열린 문제 데이터를 검증 가능한 형식으로 변환하는 혁신적인 훈련 전략 개발.
◦
다양한 벤치마크에서 VMR의 효과를 입증하고, 기존 방식 대비 유의미한 성능 향상을 달성.
◦
연구 재현을 위해 코드 공개 예정.
•
한계점:
◦
논문의 구체적인 기술적 세부 사항 및 VMR 구현 방식에 대한 추가적인 정보가 필요할 수 있음.