Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting

Created by
  • Haebom

作者

Juyi Lin, Amir Taherin, Arash Akbari, Arman Akbari, Lei Lu, Guangyu Chen, Taskin Padir, Xiaomeng Yang, Weiwei Chen, Yiqian Li, Xue Lin, David Kaeli, Pu Zhao, Yanzhi Wang

概要

この論文は、大規模ビジョン言語行動(VLA)モデルの2つの欠点、すなわち多くのトークン生成による高い推論遅延時間とトレーニングコストの増加、および生成された行動の活用不足によるパフォーマンス低下の問題を解決する新しいトレーニングフレームワークと推論最適化手法を提示します。提案されたフレームワークは、並列性の高いはるかに少ない行動トークンを生成するようにVLAモデルを微調整し、推論遅延時間とトレーニングコストを効果的に削減します。さらに、新しい投票ベースのアンサンブル戦略を使用した推論最適化技術は、現在と以前の行動予測を組み合わせることによって、生成された行動の使用率と全体的なパフォーマンスを向上させます。実験結果は、最先端のVLAモデルよりも優れた性能を達成し、OpenVLAよりもはるかに高い成功率と39倍速い推論速度(46Hzスループット)をエッジプラットフォームで示し、実際の展開可能性を実証します。コードはGitHubで公開されています。

Takeaways、Limitations

Takeaways:
VLAモデルの推論遅延時間とトレーニングコストを大幅に削減する効率的なトレーニングフレームワークを提示します。
投票ベースのアンサンブル戦略による生成された行動の利用率の向上と全体的なパフォーマンスの向上。
エッジプラットフォームでの高スループット(46Hz)と実際の展開可能性の証明。
最先端のVLAモデルより優れた性能を実現。
Limitations:
提案された方法の一般化性能のさらなる検証が必要である。
さまざまなロボットマニピュレーションタスクのスケーラビリティ評価が必要です。
特定のエッジプラットフォームの最適化による他のプラットフォームへの移植性の制約の可能性
👍