VLASCD: A Visual Language Action Model for Simultaneous Chatting and Decision Making
Created by
Haebom
作者
Zuojin Tang, Bin Hu, Chenyang Zhao, De Ma, Gang Pan, Bin Liu
概要
本論文は,ChatGPTやOpenVLAのような従来の大規模事前訓練モデルが採用する「多入力,単一出力」(MISO)構造の限界を指摘した。 MISO構造は、「マルチ入力、マルチ出力」(MIMO)タスク(並列マルチタスク出力処理など)でタスク相互排他効果を発生させ、出力チャネルを共有すると複数のタスク間のリソース競合を引き起こし、最適化の不均衡とパフォーマンスの低下につながります。一方、人間はMIMO処理を通じて(例えば、会話と意思決定の同時実行)、相互干渉なしに同時ジョブ実行が可能です。これにインスピレーションを得て、本論文では、同時会話と意思決定が可能な並列マルチタスク出力機能を備えた統合MIMOトレーニングモデルであるVisual Language Action Model for Simultaneously Chatting and Decision Making(VLASCD、またはMIMO-VLA)を提案します。 CARLA自律走行プラットフォームでの実験の結果、MIMO-VLAは、MISO会話機能付きLLMモデル、強化学習モデル、MISO意思決定機能付きVLAモデルと比較して、MIMOシナリオ内で会話生成と意思決定作業を同時に処理する上ではるかに優れたパフォーマンスを示したことを示しています。