Rewarding Doubt: A Reinforcement Learning Approach to Confidence Calibration of Large Language Models
Created by
Haebom
Category
Empty
저자
Paul Stangel, David Bani-Harouni, Chantal Pellegrini, Ege Ozsoy, Kamilia Zaripova, Matthias Keicher, Nassir Navab
개요
대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 사용을 위해서는 답변에 대한 정확한 자신감 표현이 필요합니다. 본 논문에서는 사실적 질문에 대한 답변에서 교정된 자신감 추정을 유도하기 위해 LLM을 미세 조정하는 새로운 강화 학습(RL) 접근 방식을 제시합니다. 모델이 모든 답변과 함께 자신감 점수를 예측하는 베팅 게임으로 문제를 모델링하고, 과신과 과소신 모두를 처벌하는 보상 함수를 설계합니다. 제시된 보상 설계 하에서 최적 정책은 완벽하게 교정된 자신감 추정을 초래한다는 것을 증명합니다. 실험 결과, 재훈련 없이 새로운 작업에 대한 자신감 교정 및 일반화가 크게 향상되었음을 보여주며, 이는 본 접근 방식이 일반적인 자신감 인식을 가르친다는 것을 나타냅니다. 이 접근 방식을 통해 본질적으로 교정된 LLM을 훈련할 수 있습니다.