Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ConfTuner: Training Large Language Models to Express Their Confidence Verbally

Created by
  • Haebom
Category
Empty

저자

Yibo Li, Miao Xiong, Jiaying Wu, Bryan Hooi

개요

본 논문은 신뢰성과 정확성이 중요한 과학, 법률, 의료 분야에서 사용되는 대규모 언어 모델 (LLM)의 과신 문제를 해결하기 위해, ConfTuner라는 새로운 미세 조정 방법을 제안한다. ConfTuner는 정답 확률을 정확하게 예측하도록 모델을 유도하는 토큰화된 Brier score를 사용하여, 기존의 한정적인 프롬프트 엔지니어링 및 경험적 불확실성 추정 기반 미세 조정의 한계를 극복한다. 본 연구는 다양한 추론 과제에서 캘리브레이션을 향상시키고, GPT-4o와 같은 블랙박스 모델에도 적용 가능하다는 것을 보였다. 또한, 캘리브레이션 개선이 자체 수정 및 모델 캐스케이드의 성능 향상으로 이어져 신뢰할 수 있는 LLM 시스템 개발에 기여할 수 있음을 입증했다.

시사점, 한계점

시사점:
ConfTuner는 기존 방법의 한계를 극복하는 새로운 미세 조정 기법을 제시하여 LLM의 캘리브레이션 문제를 해결한다.
토큰화된 Brier score를 활용하여 정확한 정답 확률 예측을 유도한다.
다양한 추론 과제 및 블랙박스 모델에 일반화 가능성을 입증했다.
캘리브레이션 개선이 자체 수정 및 모델 캐스케이드 성능 향상으로 이어진다는 것을 확인했다.
신뢰할 수 있는 LLM 시스템 개발에 기여한다.
한계점:
논문에서 구체적인 한계점은 명시되지 않음.
👍