PiCSAR: Probabilistic Confidence Selection And Ranking
Created by
Haebom
저자
Joshua Ong Jun Leang, Zheng Zhao, Aryo Pradipta Gema, Sohee Yang, Wai-Chung Kwan, Xuanli He, Wenda Li, Pasquale Minervini, Eleonora Giunchiglia, Shay B. Cohen
개요
본 논문은 대규모 언어 모델(LLM)과 대규모 추론 모델(LRM)의 정확도를 향상시키는 Best-of-n 샘플링 기법을 개선하는 Probabilistic Confidence Selection And Ranking (PiCSAR) 방법을 제안합니다. PiCSAR는 정답에 대한 접근 없이도 정확한 추론 과정을 식별할 수 있는 채점 함수를 설계하는 문제를 해결하기 위해, 추론 과정과 최종 답변의 결합 로그 우도를 사용하여 각 후보 생성물을 채점하는 간단하고 훈련이 필요 없는 방법입니다. 이 결합 로그 우도는 추론 신뢰도와 답변 신뢰도로 자연스럽게 분해됩니다. 다양한 벤치마크에서 기존 방법들보다 우수한 성능을 보이며(MATH500에서 +10.18, AIME2025에서 +9.81 향상), 20개 비교 중 16개에서 최소 2배 적은 샘플로도 더 나은 성능을 달성합니다. 분석 결과, 정확한 추론 과정은 훨씬 높은 추론 및 답변 신뢰도를 보이며 PiCSAR의 효과를 뒷받침합니다.