Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation

Created by
  • Haebom

作者

Yunpeng Gao, Zhigang Wang, Pengfei Han, Linglin Jing, Dong Wang, Bin Zhao

概要

本論文は、自然言語命令と視覚的手がかりを介して無人航空機(UAV)が外部環境を航行できるようにする新しい作業である航空ビジョン - 言語航海(VLN)について説明します。従来の困難である複雑な航空シーンの空間的関係問題を解決するために、本論文は、大規模言語モデル(LLM)を行動予測エージェントとして活用する訓練を必要としないゼロショットフレームワークを提案する。特に、LLMの空間推論能力を向上させる新しい意味論的 - 位相 - 測定表現(STMR)を開発する。これは、命令に関連するセマンティックマスクを上下方向の地図に抽出して投影し、周囲のランドマークに関する空間的および位相的情報を提示し、航行中に地図を拡張する方法で行われます。各ステップにおいて、UAVを中心としたローカルマップが拡張された上位トップダウンマップから抽出され、距離測定値を含む行列表現に変換され、所与の命令に対する行動予測のためのLLMに対するテキストプロンプトとして機能する。実際およびシミュレーション環境で行われた実験は、提案された方法の効果と堅牢性を実証し、単純および複雑な航行作業における最先端の方法と比較して、絶対成功率がそれぞれ26.8%および5.8%向上した。データセットとコードはまもなく公開される予定です。

Takeaways、Limitations

Takeaways:
訓練を必要としないゼロショットフレームワークにより、航空VLN作業の効率性を高めた。
STMRによるLLMの空間推論能力を向上させ,航空VLNの性能を改善した。
実際およびシミュレーション環境で最先端のパフォーマンスを達成しました。
今後の研究のためのデータセットとコード公開を予定しています。
Limitations:
データセットとコードはまだ公開されていません。
実際の環境での一般化性能の追加検証が必要です。
複雑な環境や予期しない状況に対するロバストニスのさらなる研究が必要です。
👍