Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Know What You Don't Know: Uncertainty Calibration of Process Reward Models

Created by
  • Haebom
Category
Empty

저자

Young-Jin Park, Kristjan Greenewald, Kaveh Alim, Hao Wang, Navid Azizan

개요

본 논문은 대규모 언어 모델(LLM)의 추론 시간 스케일링 알고리즘을 안내하는 데 중요한 역할을 하는 프로세스 보상 모델(PRM)의 보정 문제를 다룬다. 특히 최첨단 PRM조차도 제대로 보정되지 않아, 부분 추론 단계가 최종 정답으로 이어질 성공 확률을 과대평가하는 경향이 있음을 발견했다. 이를 해결하기 위해, 퀀타일 회귀를 통해 PRM 출력을 실제 성공 확률에 더 잘 맞추는 보정 방법을 제시한다. 보정된 성공 추정치와 관련 신뢰 구간을 활용하여, 부분 추론 궤적이 정답을 산출할 가능성에 따라 계산 예산을 동적으로 조정하는 instance-adaptive scaling (IAS) 프레임워크를 도입한다. 수학적 추론 벤치마크 실험 결과, 제안하는 PRM 보정 방법은 낮은 보정 오류를 달성하며, IAS 전략은 최종 정답 정확도를 유지하면서 추론 비용을 절감하는 것을 확인했다.

시사점, 한계점

시사점:
PRM의 보정을 통해 LLM의 추론 성능을 향상시킬 수 있다.
Instance-adaptive scaling(IAS) 프레임워크를 통해 추론 비용을 효율적으로 관리할 수 있다.
보정된 PRM은 문제 난이도에 따라 동적으로 계산 자원을 할당하여, 자신감 있는 문제에 적은 자원을 사용할 수 있게 한다.
한계점:
실험은 수학적 추론 벤치마크에 국한되어 다른 유형의 문제에 대한 일반화 가능성은 추가 연구가 필요하다.
IAS 프레임워크의 성능은 PRM의 보정 정확도에 크게 의존하므로, 보정 방법의 개선이 중요하다.
본 연구에서 사용된 LLM의 규모 및 아키텍처는 명시되지 않아, 다른 모델에 대한 적용 결과는 다를 수 있다.
👍