Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

Created by
  • Haebom

作者

Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan

概要

この論文では、事前に訓練されたビジュアル言語モデル(VLM)を活用して、効果的なロボット操作学習のための新しい3Dビジュアル - 言語行動(VLA)モデルであるBridgeVLAを紹介します。 BridgeVLAは、3D入力を複数の2D画像に投影し、2Dヒートマップを使用して動作を予測し、VLMバックボーンとの整列を保証し、一貫した2D画像空間内の入力と出力空間を統合します。また、ダウンストリームポリシー学習の前に2Dヒートマップを予測できるように、VLMバックボーンを備えた拡張可能な事前トレーニング方法を提案します。実験の結果、BridgeVLAは3つのシミュレーションベンチマークで最先端ベースラインを上回り、RLBenchで平均成功率を88.2%、COLOSSEUMで64.0%、GemBenchで他のすべてのベースラインを上回る性能を示しました。実際のロボット実験でも、BridgeVLAは最先端ベースラインより32%高い性能を示し、視覚的な妨害や新しいガイドラインを含むいくつかの分布外設定で強力な一般化性能を示しました。

Takeaways、Limitations

Takeaways:
3DデータをVLMに統合してロボット操作学習の効率とパフォーマンスを向上させる
2D画像空間内で入力と出力を統一してデータ処理の一貫性を確保
スケーラブルな事前トレーニング法によりVLMバックボーンの2Dヒートマップ予測能力を向上
シミュレーションと実ロボット実験で優れた性能を実証
少数の軌跡で高い成功率を達成し、優れたサンプル効率を実証
Limitations:
具体的なLimitationsは論文で明示的に言及されていない(おそらく、3Dデータの処理と2Dへの変換中の情報損失の可能性、モデルの複雑さ、計算コストなど)
👍