Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VLASCD: A Visual Language Action Model for Simultaneous Chatting and Decision Making

Created by
  • Haebom

作者

Zuojin Tang, Bin Hu, Chenyang Zhao, De Ma, Gang Pan, Bin Liu

概要

本論文は,ChatGPTやOpenVLAのような従来の大規模事前訓練モデルが採用する「多入力,単一出力」(MISO)構造の限界を指摘した。 MISO構造は、「マルチ入力、マルチ出力」(MIMO)タスク(並列マルチタスク出力処理など)でタスク相互排他効果を発生させ、出力チャネルを共有すると複数のタスク間のリソース競合を引き起こし、最適化の不均衡とパフォーマンスの低下につながります。一方、人間はMIMO処理を通じて(例えば、会話と意思決定の同時実行)、相互干渉なしに同時ジョブ実行が可能です。これにインスピレーションを得て、本論文では、同時会話と意思決定が可能な並列マルチタスク出力機能を備えた統合MIMOトレーニングモデルであるVisual Language Action Model for Simultaneously Chatting and Decision Making(VLASCD、またはMIMO-VLA)を提案します。 CARLA自律走行プラットフォームでの実験の結果、MIMO-VLAは、MISO会話機能付きLLMモデル、強化学習モデル、MISO意思決定機能付きVLAモデルと比較して、MIMOシナリオ内で会話生成と意思決定作業を同時に処理する上ではるかに優れたパフォーマンスを示したことを示しています。

Takeaways、Limitations

Takeaways:
MISO構造の限界を克服するMIMO構造の有効性を提示する。
同時会話や意思決定などの複雑なタスクの実行に効果的な新しいモデルVLASCD(MIMO-VLA)を提案します。
自律走行分野におけるMIMO-VLAの優れた性能を実験的に検証した。
Limitations:
提案されたモデルの一般化性能に関するさらなる研究が必要です。
CARLAプラットフォームに限定された実験の結果、他の環境でのパフォーマンスにはさらなる検証が必要です。
モデルの複雑さと計算コストの分析が不足しています。
👍