Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning

Created by
  • Haebom

作者

Bingqian Lin, Yunshuang Nie, Khun Loun Zai, Ziming Wei, Mingfei Han, Rongtao Xu, Minzhe Niu, Jianhua Han, Hanwang Zhang, Liang Lin, Bokui Chen, Cewu Lu, Xiaodan Liang

概要

本稿では、オープンソースの大規模言語モデル(LLM)を使用してビジュアル言語ナビゲーション(VLN)のパフォーマンスを向上させる新しいアプローチを提案します。 EvolveNavと呼ばれるこのモデルは、モデルの推論能力を有効にし、VLN操作の推論速度を向上させるために、フォーマットされたChain-of-Thought(CoT)ラベルでトレーニングする2段階のプロセスを使用します。また、モデル自体の推論出力を自己強化CoTラベルとして使用し、監督の多様性を高め、誤った推論パターンとの対照を通じた正確な推論パターン学習を促進する。実験結果は、様々なベンチマークにおける従来のLLMベースのVLNアプローチよりもEvolveNavの卓越性を実証した。

Takeaways、Limitations

Takeaways:
VLN作業におけるLLMの推論能力を向上させるための新しい2段階訓練方式の提示
CoT方式を活用してナビゲーション決定の精度と解析可能性を向上
自己反射フォローアップトレーニングを通じて監督の多様性を高め、一般化能力を向上
さまざまなベンチマークで、既存のLLMベースのVLNアプローチよりも優れたパフォーマンスを示しています。
コード開示による研究の再現と活用の容易さの向上
Limitations:
完全なCoTラベルの欠如による過適合問題の解決に集中
特定のVLN作業環境に特化したモデルである可能性があり、他の環境でのパフォーマンスに関するさらなる研究が必要です。
モデルの複雑さと計算コストへの言及はありません、実際の適用性についてのさらなる分析が必要です。
👍