Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

작성자

Haebom

카테고리

Empty

저자

Mehul Damani, Isha Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim, Jacob Andreas

💡 개요

본 논문은 기존 이진 보상 함수만을 사용하는 강화학습(RL) 기반 언어 모델(LM) 훈련 방식이 예측 불확실성을 제대로 다루지 못해 보정(calibration) 성능 저하와 잘못된 응답 생성 증가라는 부작용을 낳는 문제를 제기합니다. 이를 해결하기 위해, 본 연구는 예측 정확도와 신뢰도 추정치를 동시에 개선하는 RLCR(Reinforcement Learning with Calibration Rewards) 방법론을 제안합니다. RLCR은 이진 정확도 점수에 Brier 점수를 결합한 보상 함수를 사용하여 모델이 정확한 예측과 함께 신뢰도 추정치를 최적화하도록 훈련합니다.

🔑 시사점 및 한계

•

신뢰도 보정 강화: RLCR은 정확도 손실 없이 신뢰도 보정 성능을 크게 향상시키며, 이는 일반적인 RL 훈련 방식이나 사후 보정 방식보다 우수한 성능을 보입니다.

•

일반화된 신뢰성 확보: 학습 시 명시적으로 신뢰도 보정을 최적화함으로써, 테스트 시 verbalized confidence를 활용하여 정확도와 보정 성능을 더욱 향상시키는 모델을 만들 수 있습니다.

•

이진 보상 함수의 한계 극복: 본 연구는 이진 보상 함수가 가지는 '추측' 또는 '낮은 신뢰도' 출력에 대한 페널티 부재 문제를 해결하고, 보다 신뢰할 수 있는 추론 모델을 구축할 가능성을 제시합니다.

•

한계점 또는 향후 과제: Brier 점수와 같은 특정 proper scoring rule에 대한 보상 함수 설계를 넘어서, 다양한 종류의 proper scoring rule을 활용하거나 더욱 복잡한 추론 작업에 RLCR을 적용하는 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage