Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SE-VLN: A Self-Evolving Vision-Language Navigation Framework Ba​​sed on Multimodal Large Language Models

Created by
  • Haebom

作者

Xiangyu Dong, Haoran Zhao, Jiang Gao, Haozhou Li, Xiaoguang Ma, Yaoming Zhou, Fuhai Chen, Juan Liu

概要

本稿では、ビジョン言語探索(VLN)における大規模言語モデル(LLM)の限界を克服するために、自己進化型VLNフレームワーク(SE-VLN)を提案します。 SE-VLNは、継続的な学習と進化を通じて経験的知識を活用し、成功と失敗の事例を再利用可能な知識に変換する階層型メモリモジュール、経験を検索し、多段階の意思決定を可能にする検索拡張事故ベースの推論モジュール、そして継続的な進化を実現する反省モジュールで構成されています。 R2RとREVERSEのデータセットでは、従来の最高性能モデルよりそれぞれ23.9%と15.0%の性能向上が見られ、未知の環境で57%と35.2%の成功率を達成しました。これは、経験豊富なストレージが増加するにつれてパフォーマンスが向上することを示しており、自己進化型VLNエージェントフレームワークとしての大きな可能性を示唆しています。

Takeaways、Limitations

Takeaways:
LLMベースのVLNにおける経験的知識の活用と自己進化機能を実装した最初の試み
R2RおよびREVERSEデータセットで、従来の最高性能と比較して大幅なパフォーマンス向上を達成。
経験蓄積による性能向上による自己進化剤の可能性を証明
Limitations:
提案されたフレームワークの計算コストと複雑さの分析不足。
さまざまな環境や作業の一般化性能の追加評価が必要
実際の世界適用のための追加の研究開発が必要です。
👍