Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting

Created by
  • Haebom

作者

Juyi Lin, Amir Taherin, Arash Akbari, Arman Akbari, Lei Lu, Guangyu Chen, Taskin Padir, Xiaomeng Yang, Weiwei Chen, Yiqian Li, Xue Lin, David Kaeli, Pu Zhao, Yanzhi Wang

概要

自然言語ガイドラインに従ってロボット操作を実行する大規模ビジョン - 言語 - 行動(VLA)モデルの問題を解決するために、推論遅延時間とトレーニングコストを削減する少数のアクショントークンの生成に焦点を当てたトレーニングフレームワークを開発しました。さらに、生成された行動の使用率を高め、全体的なパフォーマンスを向上させるために、現在および前の行動予測を組み合わせた投票ベースのアンサンブル戦略を導入しました。その結果、最先端のVLAモデルよりも優れた性能を達成し、最速の推論速度と実用性を示すエッジプラットフォームで46HzのスループットでOpenVLAより39倍速い推論速度を記録しました。

Takeaways、Limitations

Takeaways:
推論遅延時間とトレーニングコストの削減:少ない行動トークンを生成してVLAモデルの効率を向上させます。
パフォーマンスの向上:投票ベースのアンサンブル戦略を通じて生成された行動の利用率を高め、全体的なパフォーマンスを向上させます。
実用的な展開の可能性:エッジプラットフォームで46Hzのスループットと39倍の高速推論速度で実証。
Limitations:
論文の内容に具体的なLimitationsは記載されていない。
👍