Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models
Created by
Haebom
저자
Paul Stangel, David Bani-Harouni, Chantal Pellegrini, Ege Ozsoy, Kamilia Zaripova, Matthias Keicher, Nassir Navab
개요
본 논문은 대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 사용을 위해 정확한 자신감 수준을 표현하는 새로운 강화 학습 접근 방식을 제안합니다. 로그 점수 규칙을 기반으로 한 보상을 최적화하여 과신과 과소신 모두를 명시적으로 처벌함으로써 모델의 자신감 추정치를 실제 예측 정확도와 일치시킵니다. 기존의 자신감 추정과 응답 생성을 분리하는 방식과 달리, 본 연구는 자신감 보정을 LLM의 생성 과정에 원활하게 통합합니다. 실험 결과, 제안된 방법으로 훈련된 모델은 상당히 향상된 보정을 보이며 추가적인 미세 조정 없이 보이지 않는 작업에도 일반화되는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
LLM의 자신감 추정치 보정을 위한 효과적인 강화 학습 기반 방법 제시
◦
과신과 과소신 모두를 처벌하는 로그 점수 규칙 기반 보상 설계를 통한 정확한 자신감 표현 유도