Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Probabilistic Optimality for Inference-time Scaling

Created by
  • Haebom

作者

Youkang Wang, Jian Wang, Rubing Chen, Xiao-Yong Wei, Qing Li

概要

本論文は、大規模言語モデル(LLM)の推論性能を向上させるための推論時の拡張(inference-time scaling)手法について説明します。既存の推論時の拡張方法は、ヒューリスティック戦略に依存することが多く、理論的基盤が不足するという問題点を指摘し、並列サンプルが独立して等しく分布するという仮定のもと、最適な推論時に拡張を定式化する確率的フレームワークを提案する。このフレームワーク内で目標性能レベルを達成するために必要なサンプル数の理論的下限を導き出し、これに基づいて最適なサンプル数を動的に決定する実用的なアルゴリズムであるOptScaleを開発した。 OptScaleは、言語モデルベースの予測子を使用して確率的辞書パラメータを推定し、事前定義されたパフォーマンスしきい値と信頼レベルを満たすために必要な最小サンプル数を決定します。数学的推論ベンチマーク(MATH-500、GSM8K、AIME、AMCを含む)の広範な実験は、OptScaleがサンプリングオーバーヘッドを大幅に削減しながら、最先端の推論性能と同等またはより良い性能を維持することを示しています。結論として、この論文は、複雑な推論のためのLLMの効率的な展開における重要なギャップを解消する理論的基盤と実用的な解決策の両方を提供します。

Takeaways、Limitations

Takeaways:
LLMの推論では、拡張のための最初の理論的基盤を提供します。
サンプリングオーバーヘッドを減らしながら最先端の性能を維持する実用的なアルゴリズム(OptScale)を提示します。
数学的推論ベンチマークにおけるOptScaleの効果を実験的に検証した。
LLMの効率的な展開のための新しい可能性を提示します。
Limitations:
並列サンプルが独立して同一に分布するという仮定に対する依存度は高い。実際の状況では、この仮定は常に満たされない可能性があります。
OptScaleの性能は言語モデルベースの予測器の精度に依存し、予測器の性能の低下はシステム全体の性能に影響を与える可能性があります。
様々なタイプの推論作業の一般化の可能性に関するさらなる研究が必要である。
特定の言語モデルまたはベンチマークの結果を一般化できるかどうかをさらに検証する必要があります。
👍