Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Created by

Haebom

저자

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun

💡 개요

본 논문은 강화학습에서 신뢰도 저하 문제, 특히 LLM의 추론 능력 향상에도 불구하고 발생하는 과도한 확신으로 인한 오류를 해결하고자 합니다. 기존 방법들이 추론 정확도와 신뢰도 개선을 동시에 최적화하려 했으나, 이론적 분석 결과 두 목표 사이에 근본적인 충돌이 존재함을 발견했습니다. 이에 추론과 신뢰도 목표를 분리하는 DCPO 프레임워크를 제안하여, 정확도를 유지하면서도 뛰어난 신뢰도 성능을 달성하고 과도한 확신 문제를 완화했습니다.

🔑 시사점 및 한계

•

강화학습에서 추론 정확도 향상과 신뢰도 개선은 별도의 목표로 분리하여 최적화해야 효과적이라는 이론적 및 실증적 근거를 제시합니다.

•

제안된 DCPO 프레임워크는 LLM의 신뢰도를 크게 향상시켜 보다 안정적인 배포에 기여할 수 있습니다.

•

본 연구는 특정 RLVR 설정에서의 신뢰도 저하 문제를 다루었으며, 다른 강화학습 설정이나 LLM 아키텍처에서의 일반화 가능성에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage