Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Audit-of-Understanding: Posterior-Constrained Inference for Mathematical Reasoning in Language Models

Created by
  • Haebom

作者

Samir Abdaljalil, Erchin Serpedin, Khalid Qaraqe, Hasan Kurban

概要

この論文は、大規模言語モデル(LLM)がしばしば根拠のない仮定に基づいてサイケデリックな結論を生成するという問題を解決するために、検証された前提条件のみを使用して推論を制限するAuU(Aut-of-Understanding)フレームワークを提案します。 AoUは、クエリを候補仮定に分解し、それらのサポートを監査し、検証されたサブセットに対してのみ推論を実行する3つのステップを経ます。これは posterior-constrained inference であり、オプションの予測と拒否学習に関連しています。本論文の主な貢献は、完全な検証の下での理論的保証、不完全な監査の下での過渡リスク境界、および効率分析を含む。実験的に、AoUはGSM8K、MultiArith、SVAMPで精度と忠実度を向上させ、特にGSM8Kで最大+30%、MultiArithで+45%、SVAMPで+20-28%の性能向上を示しました。

Takeaways、Limitations

Takeaways:
LLMの推論過程で発生する幻覚現象を解決する新しいフレームワークの提示
精度と忠実度を同時に向上させる効果を実証
Chain-of-Thought、Self-Consistency、CoT-Decodingなど、従来の方法論に比べて優れた性能
理論的保証と過渡リスク境界の提示によるフレームワークの信頼性の確保
Limitations:
完全な検証の下で理論的保証が行われますが、実際の環境では不完全な監査によってパフォーマンスが低下する可能性があります
AoUフレームワークの実装と運用に必要なリソースと複雑さの考慮が必要
さまざまなLLMモデルおよび他のタスクの一般化パフォーマンス評価が必要
👍