VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction

Created by

Haebom

저자

Xin-Qiang Cai, Masashi Sugiyama

💡 개요

본 논문은 외부 검증기에 의존하는 강화학습 기반 언어모델 추론 방식의 확장성 문제를 해결하고자 검증기 없이 추론을 안정화하는 새로운 프레임워크인 VI-CuRL을 제안한다. VI-CuRL은 모델 내부의 신뢰도를 활용하여 자체적인 커리큘럼을 구축하고, 고신뢰도 샘플을 우선적으로 학습함으로써 편향-분산 트레이드오프를 효과적으로 관리한다. 이를 통해 기존의 검증기 독립적인 방법론에서 발생하는 학습 불안정성을 극복하고 뛰어난 성능을 달성한다.

🔑 시사점 및 한계

•

외부 검증기 없이도 LLM의 추론 능력을 안정적으로 향상시킬 수 있는 새로운 접근 방식을 제시한다.

•

모델의 내재적 신뢰도를 활용하여 데이터 선정 및 학습 순서를 제어함으로써 학습 효율성과 안정성을 높일 수 있다.

•

제안된 방법론은 이론적으로는 점근적 비편향성을 보장하며, 다양한 벤치마크에서 검증기 독립적인 기존 방법론보다 우수한 성능을 보인다.

•

본 연구는 검증기 없이도 학습이 가능함을 보여주지만, 실제 복잡하고 비정형적인 환경에서의 적용 가능성과 더 다양한 종류의 편향 및 분산 문제를 해결하기 위한 추가적인 연구가 필요하다.

PDF 보기

Made with Slashpage