Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

PiCSAR: Probabilistic Confidence Selection And Ranking

Created by
  • Haebom

作者

Joshua Ong Jun Leang, Zheng Zhao, Aryo Pradipta Gema, Sohee Yang, Wai-Chung Kwan, Xuanli He, Wenda Li, Pasquale Minervini, Eleonora Giunchiglia, Shay B. Cohen

概要

本論文では、大規模言語モデル(LLM)と大規模推論モデル(LRM)の精度を向上させるBest-of-nサンプリング手法を改善するProbabilistic Confidence Selection And Ranking(PiCSAR)方法を提案します。 PiCSARは、正解へのアクセスなしで正確な推論プロセスを識別できるスコアリング関数を設計する問題を解決するために、推論プロセスと最終回答の組み合わせ対数尤度を使用して各候補製品を採点する簡単で訓練を必要としない方法です。この結合対数尤度は、推論信頼性と回答信頼性に自然に分解されます。さまざまなベンチマークで従来の方法より優れた性能を示し(MATH500で+10.18、AIME2025で+9.81向上)、20の比較のうち16から少なくとも2倍少ないサンプルでも優れた性能を達成します。分析の結果、正確な推論プロセスははるかに高い推論と回答の信頼性を示し、PiCSARの効果を支持します。

Takeaways、Limitations

Takeaways:
Best-of-nサンプリングの効率を大幅に改善する新しい採点法PiCSAR提案
正解なしで正確な推論プロセスを効果的に識別可能。
さまざまなベンチマークにおける従来の方法と比較して優れた性能と効率性を証明
推論信頼性と回答信頼性分析によるPiCSARの有効性を実証
Limitations:
提示されたベンチマーク以外の他の種類の問題またはモデルの一般化性能は、さらなる研究が必要です。
PiCSARの信頼度計算方式が特定の問題タイプに偏る可能性があります。
複雑な推論プロセスを伴う問題に対するPiCSARの性能限界の確認が必要
👍