Sign In

Rewarding Doubt: A Reinforcement Learning Approach to Confidence Calibration of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Paul Stangel, David Bani-Harouni, Chantal Pellegrini, Ege Ozsoy, Kamilia Zaripova, Matthias Keicher, Nassir Navab

개요

본 논문은 대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 사용을 위해, 사실적 질문에 대한 답변의 신뢰도를 정확하게 표현하는 새로운 강화 학습(RL) 기반 방법을 제시합니다. 모델이 각 답변과 함께 신뢰도 점수를 예측하는 베팅 게임으로 문제를 모델링하고, 과신과 과소신 모두를 처벌하는 보상 함수를 설계합니다. 이 보상 함수 설계 하에서 최적 정책은 완벽하게 보정된 신뢰도 추정으로 이어진다는 것을 증명합니다. 실험 결과, 재훈련 없이 새로운 작업에 대한 일반화 능력과 함께 신뢰도 보정이 상당히 향상되었음을 보여주며, 이는 제시된 접근 방식이 일반적인 신뢰도 인식을 학습시킨다는 것을 나타냅니다. 따라서 본 연구는 본질적으로 보정된 LLM을 훈련하는 방법을 제시합니다.

시사점, 한계점

시사점:
LLM의 신뢰도 추정을 향상시키는 새로운 강화 학습 기반 방법 제시
과신 및 과소신을 모두 처벌하는 보상 함수 설계를 통해 완벽한 보정 가능성 증명
재훈련 없이 새로운 작업에 대한 일반화 능력 향상 확인
본질적으로 보정된 LLM 훈련 가능성 제시
한계점:
제시된 방법의 실제 환경 적용에 대한 추가적인 연구 필요
다양한 유형의 질문 및 LLM에 대한 일반화 성능 검증 필요
보상 함수 설계의 최적화 및 개선 가능성 탐색 필요
👍