Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ProRefine: Inference-Time Prompt Refinement with Textual Feedback

Created by
  • Haebom

作者

Deepak Pandita, Tharindu Cyril Weerasooriya, Ankit Parag Shah, Isabelle Diana May-Xin Ng, Christopher M. Homan, Wei Wei

概要

この論文は、マルチAIエージェントが複雑なタスク(推論、計画など)を実行するエージェントワークフローに焦点を当てています。エージェントワークフローのパフォーマンスは、各エージェントの役割を案内するプロンプトに大きく依存し、誤ったプロンプトはシステム全体のパフォーマンスを低下させます。この問題を解決するために,論文はProRefineと呼ばれる新しい推論時間最適化法を提示した。 ProRefineは、LLMエージェントのループを介してテキストフィードバックを生成して適用し、多段階推論操作のためのプロンプトを動的に改善します。追加のトレーニングや正解ラベルなしで可能です。 5つの数学的推論のベンチマークデータセットで、ProRefineはゼロショットのChain-of-Thought基準モデルより3〜37%向上したパフォーマンスを示し、小さなモデルのパフォーマンスを大きなモデルレベルに引き上げる効果も確認されています。これは、費用対効果の高い強力なハイブリッドAIシステムの構築と高性能AIのアクセシビリティの向上に貢献する可能性を示唆しています。

Takeaways、Limitations

Takeaways:
推論時間プロンプトを最適化するための効果的な方法であるProRefineの提示
ゼロショット Chain-of-Thought 基準モデルに対する性能向上(3~37%p)
小型モデルの性能向上とコスト効率の高いAIシステム構築の可能性を提示
高性能AIのアクセシビリティ向上に貢献
Limitations:
提示されたベンチマークデータセットは数学的推論に限定されています。他の種類のタスクの一般化可能性検証が必要
ProRefineのパフォーマンス向上が特定のデータセットまたはタスクに偏る可能性があります
LLMエージェントループの複雑さと計算コストの分析不足
実際の用途におけるスケーラビリティと安定性に関するさらなる研究が必要
👍