Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Plan Verification for LLM-Based Embodied Task Completion Agents

Created by
  • Haebom

作者

Ananth Hariharan, Vardhan Dongre, Dilek Hakkani-T ur, Gokhan Tur

概要

この論文は、実装されたAIのための大規模言語モデル(LLM)ベースの作業計画と、対応する人間のデモンストレーションが不要な行動、重複したナビゲーション、および論理エラーによってポリシーの品質を低下させる可能性があるという問題を提起します。これを解決するために、判断LLMが行動順序を批判し、計画LLMが修正を適用する反復検証フレームワークを提案します。これにより、徐々にクリーンで空間的に一貫した軌跡が生成されます。ルールベースのアプローチとは異なり、自然言語プロンプトに依存して、無関係な行動、矛盾、および欠落しているステップなど、さまざまな種類のエラーの広範な一般化を可能にします。 TEACh実装AIデータセットの手動で注釈付きのアクションセットでは、提案されたフレームワークは、4つの最先端LLM(GPT-4-mini、DeepSeek-R1、Gemini 2.5、LLaMA 4 Scout)に対して最大90%の再現率と100%の精度を達成します。スタイリッシュなループは急速に収束し、96.5%のシーケンスが最大3回の反復のみを必要とし、時間効率と空間的行動構成の両方を改善します。重要なのは、この方法は人間のエラー回復パターンを維持しながら崩壊させず、強力な修正動作の今後の研究を支援するということです。空間計画と行動を改善するための信頼できるLLM機能を使用して計画検証を確立することで、実装されたAIで模倣学習のための高品質トレーニングデータを拡張可能なパスを提供します。

Takeaways、Limitations

Takeaways:
LLMを使用した繰り返し計画検証フレームワークは、実装されたAIの作業計画の品質を向上させることができることを示しています。
自然言語プロンプトベースのアプローチでは、さまざまな種類のエラーの一般化が可能です。
時間効率と空間的行動構成を改善します。
人間のエラー回復パターンを保存し、堅牢なシステム構築に貢献します。
模倣学習のための高品質トレーニングデータを生成するためのスケーラブルな方法を提供します。
Limitations:
提案されたフレームワークのパフォーマンスは、使用されるLLMのパフォーマンスに依存する可能性があります。
TEAChデータセットの評価結果のみが提示され、他のデータセットでの一般化パフォーマンスには追加の検証が必要です。
複雑な作業や例外的な状況の処理性能には、さらなる研究が必要です。
完全なエラー除去を保証するものではなく、一部のエラーはまだ残っている可能性があります。
👍