[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

Created by
  • Haebom

저자

Mehul Damani, Isha Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim, Jacob Andreas

개요

본 논문은 강화 학습(RL)을 통해 언어 모델(LM)이 자연어 추론 과정을 생성하도록 훈련할 때 다양한 어려운 질문 응답 과정에서 성능이 향상됨을 보여줍니다. 기존 RL 방식은 LM 출력의 정확성만을 평가하는 이진 보상 함수를 사용하여 보정력 저하 및 오류 응답 생성 증가라는 부작용을 초래합니다. 본 논문에서는 RLCR(Reinforcement Learning with Calibration Rewards)을 제안합니다. RLCR은 정확도와 보정된 신뢰도 추정을 동시에 향상시키는 방법으로, LM이 추론 후 예측과 수치적 신뢰도 추정치를 모두 생성하고, 이진 정확도 점수에 브라이어 점수(Brier score)를 추가한 보상 함수를 최적화합니다. 본 논문은 이 보상 함수가 정확하고 잘 보정된 예측을 생성하는 모델을 산출함을 증명하고, 다양한 데이터셋에서 RLCR이 정확도 저하 없이 보정력을 크게 향상시키는 것을 실험적으로 보여줍니다. 또한, 테스트 시점에서 언어로 표현된 신뢰도를 활용하여 신뢰도 가중 스케일링 방법을 통해 정확도와 보정력을 향상시킬 수 있음을 보여줍니다.

시사점, 한계점

시사점:
강화 학습을 통해 언어 모델의 추론 능력 향상과 동시에 신뢰도 보정을 개선할 수 있음을 보여줌.
브라이어 점수를 활용한 보상 함수가 정확도와 보정력을 모두 향상시키는 효과적인 방법임을 제시.
테스트 시점에서 신뢰도 정보를 활용하여 성능을 추가적으로 향상시킬 수 있는 방법 제시.
보정된 신뢰도 추정은 더욱 신뢰할 수 있는 추론 모델을 만드는데 중요함을 강조.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요.
다양한 유형의 추론 문제에 대한 적용성 검증이 필요.
브라이어 점수 이외의 다른 보정 점수 함수에 대한 연구가 필요할 수 있음.
👍