Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Hume: Introducing System-2 Thinking in Visual-Language-Action Model

Created by
  • Haebom

作者

Haoming Song, Delin Qu, Yuanqi Yao, Qizhi Chen, Qi Lv, Yiwen Tang, Modi Shi, Guanghui Ren, Maoqing Yao, Bin Zhao, Dong Wang, Xuelong Li

概要

本論文は、物理的な世界で複雑な作業を行う際に、人間が実際の行動をする前にゆっくりとした事故をする方法に着目し、ロボットベースのモデルに人間と同様の思考能力を付与することを目的としています。この目的のために、価値に基づくシステム2の事故とカスケード行動ノイズ除去を備えたデュアルシステムビジョン - 言語 - 行動(VLA)モデルHumeを提案します。 Humeのシステム2は、新しいバリュークエリヘッドを使用して予測された行動の状態 - 行動値を推定し、複数の行動候補を繰り返しサンプリングして、状態 - 行動値に基づいて1つを選択する価値誘導事故を実装します。システム 1 は、システム 2 が選択した行動を受けて、簡単なロボット制御のためのカスケード行動ノイズ除去を実行する軽量反応視覚運動ポリシーです。展開時に、システム2は低周波数で価値誘導事故を実行し、システム1はシステム2が選択した行動候補を非同期に受け取り、リアルタイムで流動的な行動を予測します。実験の結果、Humeは、いくつかのシミュレーションベンチマークと実際のロボット展開で、従来の最先端のVLAモデルよりも優れた性能を示しました。

Takeaways、Limitations

Takeaways:
人間のゆっくりとした事故過程をロボット制御に適用することで複雑な作業遂行能力を向上
価値誘導事故による効率的な行動の選択と計画可能
システム1とシステム2の二重システム構造によるリアルタイム性能と計画能力のバランスを維持
様々なシミュレーションと実際のロボット環境における優れた性能検証
Limitations:
提案されたモデルの価値関数学習の効率と一般化性能に関するさらなる研究の必要性
さまざまな複雑な作業環境の一般化パフォーマンス評価がさらに必要です。
実際の世界の複雑さと不確実性を完全に処理するには限界があるかもしれません。
システム2の低周波数動作による遅延問題の発生の可能性
👍