[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation

Created by
  • Haebom

作者

Bingqian Lin, Yunshuang Nie, Khun Loun Zai, Ziming Wei, Mingfei Han, Rongtao Xu, Minzhe Niu, Jianhua Han, Liang Lin, Cewu Lu, Xiaodan Liang

概要

本論文は,自然言語命令に従って道を見つけるVision-Language Navigation(VLN)エージェントを構築する研究を扱う。最近の研究は、オープンソース大規模言語モデル(LLM)の推論能力を活用して探索性能を改善し、LLMの訓練データとVLN作業との間のドメインギャップを同時に緩和する可能性を示した。しかしながら、既存のアプローチは主に直接的な入力 - 出力マッピング方式を採用しており、マッピング学習が困難であり、探索決定が説明不可能であるという欠点がある。本論文では、LLMベースのVLNを向上させるための新しい自己改善型実装推論フレームワークであるEvolveNavを提案する。 EvolveNavは、形式化されたChain-of-Thought監督の微調整と自己反射的ポストトレーニングの2段階で構成されています。最初のステップでは、フォーマットされたCoTラベルを使用してモデルのナビゲーション推論能力を有効にし、推論を高速化します。 2番目のステップでは、モデルの自己推論出力を独自に豊富に作成したCoTラベルで繰り返しトレーニングし、監督の多様性を向上させます。誤った推論パターンとは対照的に、正しい推論パターンの学習を促進するために、自己反射的支援作業も導入される。実験結果は、人気のあるVLNベンチマークでは、EvolveNavが以前のLLMベースのVLNアプローチより優れていることを示しています。

Takeaways、Limitations

Takeaways:
LLMベースのVLNにおける推論能力の向上とナビゲーション精度の向上に貢献する新しいフレームワーク(EvolveNav)の提示。
形式化されたCoTラベルと自己反復的ポストトレーニングによる効果的な学習戦略の提示
自己反射的補助作業による正しい推論パターン学習の導出
従来のLLMベースのVLNアプローチより優れた性能を実証
Limitations:
ナビゲーション操作の複雑さにより、完全なCoTラベルを取得することが困難になる可能性があり、純粋なCoT監督の微調整によって過適合が発生する可能性があります。
提案されたフレームワークの一般化性能の追加検証が必要です。
さまざまな環境と複雑なナビゲーション課題に対するロバースト性評価が必要です。
👍