Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Probabilistic Optimality for Inference-time Scaling

Created by
  • Haebom

作者

Youkang Wang, Jian Wang, Rubing Chen, Xiao-Yong Wei

概要

この論文は、大規模言語モデル(LLM)の推論性能を向上させるための推論時間拡張(Inference-time scaling)技術のための新しい確率的フレームワークを提示します。従来のヒューリスティックベースの並列サンプリング方式の限界を克服し、並列サンプルが独立して等しく分布するという仮定のもと、最適な推論時間拡張のための理論的基盤を設けます。 Best-of-N選択戦略の確率分布を推定し、目標性能レベルを達成するために必要な最小サンプル数の理論的下限を導き、それに基づいて最適サンプル数を動的に決定するOptScaleアルゴリズムを開発しました。 OptScaleは、言語モデルベースの予測子を使用して確率的事前パラメータを推定し、事前定義されたパフォーマンスしきい値と信頼レベルを満たす最小サンプル数を決定します。 MATH-500、GSM8K、AIME、AMCなどの数学的推論ベンチマークの広範な実験は、OptScaleがサンプリングオーバーヘッドを大幅に削減し、最先端の推論性能と同等またはより良い性能を維持することを示しています。この論文は理論的基盤と実用的な解決策の両方を提供し、複雑な推論のためのLLMの効率的な展開に重要な貢献をします。ソースコードは公に提供されます。

Takeaways、Limitations

Takeaways:
LLMの推論時間拡張のための最初の理論的基盤を提供します。
目標パフォーマンスを達成するために必要な最小サンプル数を計算することで、コンピューティングコストを効率的に削減できるOptScaleアルゴリズムを提供します。
数学的推論は、ベンチマークでSOTAのパフォーマンスを維持または上回る結果を示しています。
公開されたソースコードにより、再現性と活用性が向上しました。
Limitations:
並列サンプルが独立して等しく分布しているという仮定に基づいて、実際のデータの分布がこの仮定を満たさない場合、パフォーマンスが低下する可能性があります。
言語モデルベースの予測子の精度によっては、OptScaleアルゴリズムのパフォーマンスが影響を受ける可能性があります。
現在、数学的推論ベンチマークの実験結果のみが提示されており、他の種類の作業の一般化の可能性にはさらなる研究が必要です。
👍