Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance

Created by
  • Haebom

作者

Yang Zhang, Chenwei Wang, Ouyang Lu, Yuan Zhao, Yunfei Ge, Zhenglong Sun, Xiu Li, Chi Zhang, Chenjia Bai, Xuelong Li

概要

この論文では、大規模なさまざまなデータセットで事前トレーニングされたVision-Language-Action(VLA)モデルをダウンストリーム操作に適用することの難しさを解決するために、Align-Then-stEer(ATE)フレームワークを紹介します。 ATEは、事前訓練データとロボットの実装または作業自体との間の不一致によるアクション分布の不一致の問題を解決するために、逆KL発散によって制約されたバリエーション自動エンコーダを使用して統合された潜在スペースを構築し、それによって適応アクションを事前トレーニングアクション潜在分布のモードに含めます。その後、モデルの出力分布を目標領域に移動させる案内機構により、微調整中の拡散またはフローベースのVLAの生成プロセスを制御する。シミュレーションおよび実際の環境でのクロス実装およびクロス作業操作の広範な実験は、既存のVLAの直接微調整と比較して、シミュレーションで平均マルチタスク成功率を最大9.8%向上させ、実際の環境のクロス実装設定で32%の成功率向上を達成することを示しています。

Takeaways、Limitations

Takeaways:
VLAモデルの実際のロボットプラットフォームと作業への適用性を大幅に向上させる、一般的で軽量なソリューションを提供します。
データ効率的な方法で、VLAモデルを新しいロボットプラットフォームと作業に適応させることができます。
シミュレーション環境と実際の環境の両方で、クロス実装とクロス作業操作のパフォーマンスを大幅に向上させます。
Limitations:
この論文で提示されているATEフレームワークの一般化性能に関するさらなる研究が必要です。さまざまなタスクやロボットプラットフォームのテストがさらに必要になる場合があります。
逆KL発散を使用した制約が最適な方法であるか、他の制約方法を使用すると、より良いパフォーマンスが得られるかについてのさらなる研究が必要です。
実際の世界適用におけるサンプル数の制約や環境要因の検討が不足する可能性があります。
👍