Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making

Created by
  • Haebom

作者

Mohamed Salim Aissi, Clemence Grislain, Mohamed Chetouani, Olivier Sigaud, Laure Soulier, Nicolas Thome

概要

本論文では、視覚的な指示に基づく計画のための新しいフレームワークであるVIPERを提案します。 VIPERは、VLM(Vision-Language Model)ベースの知覚とLLM(Large Language Model)ベースの推論を統合し、VLMが画像観察のテキスト記述を生成し、LLMポリシーが作業目標に応じて行動を予測するモジュラーパイプラインを使用します。行動の複製と強化学習により、推論モジュールを微調整してエージェントの意思決定能力を向上させました。 ALFWorldのベンチマーク実験の結果、VIPERは従来の最先端のビジュアル指示ベースの計画よりもパフォーマンスがはるかに優れており、純粋なテキストベースのOracleとのパフォーマンスの差を減らしました。テキストを中間表現として活用することで、説明の可能性を高め、知覚と推論コンポーネントの詳細な分析を可能にします。

Takeaways、Limitations

Takeaways:
VLM と LLM を統合し、視覚的指向ベースの計画問題に対する新しいアプローチを提示します。
従来の最先端モデルよりもパフォーマンスが向上し、テキストベースのOracleとのパフォーマンスの差が減少しました。
テキストの中間表現により、計画プロセスの説明の可能性を高めました。
知覚と推論コンポーネントの詳細な分析が可能になった。
Limitations:
ALFWorldベンチマークの結果のみが提示され、他の環境での一般化パフォーマンスは検証されていません。
VLMとLLMの統合方法と微調整プロセスの詳細な説明が不足している可能性があります。
実際の世界適用のレビューが不足しています。
👍