How You Begin is How You Reason: Driving Exploration in RLVR via Prefix-Tuned Priors

작성자

Haebom

카테고리

Empty

저자

Yifan Xu, Junren Chen, Yifan Chen

💡 개요

본 논문은 강화학습 기반 검증 가능한 보상(RLVR)이 LLM 추론 작업에서 효과적인 탐색의 어려움, 특히 엔트로피 붕괴 현상으로 인해 발생하는 문제점을 해결하고자 합니다. 이를 위해, 추론 궤적에 대한 모델의 사전 분포를 재구성하는 soft prefix 풀을 학습하는 정보 최대화 증강 탐색(IMAX) 프레임워크를 제안합니다. 제안된 IMAX는 검증 가능한 보상에 더해 정보 최대화 보상을 활용하여 다양한 추론 행동의 발견을 촉진합니다.

🔑 시사점 및 한계

•

RLVR에서 발생하는 엔트로피 붕괴 문제를 효과적으로 해결하여 추론 궤적의 다양성을 확보할 수 있습니다.

•

정보 최대화 보상과 soft prefix를 통해 기존 RLVR 파이프라인에 쉽게 통합 가능하며, 모델 스케일에 관계없이 성능 향상을 보입니다.

•

제안된 방법론이 더 복잡하거나 다양한 유형의 LLM 추론 작업에 얼마나 효과적일지에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage