Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration

Created by
  • Haebom

作者

Ye Li, Yuan Meng, Zewen Sun, Kangye Ji, Chen Tang, Jiajun Fan, Xinzhu Ma, Shutao Xia, Zhi Wang, Wenwu Zhu

概要

Vision-Language-Action(VLA)モデルの高い計算コストと低い実行頻度を解決するために、SP-VLAと呼ばれる統合フレームワークを提案します。これは、モデルスケジューリングとトークンプルーニングを組み合わせてVLAモデルを加速します。具体的には、アクション認識モデルのスケジューリングを通じて時間的冗長性を減らし、空間的に意味のあるデュアル認識トークンプルーニングを通じて視覚的冗長性を排除します。 SP-VLAは、VLAモデルと軽量ジェネレータを動的に切り替えて実行頻度を調整し、重要なアクションと重要な視覚情報に集中するように導き、精度を維持しながら効果的な加速を実現します.実験の結果、LIBEROで1.5倍、SimplerEnvで2.4倍のロスレス加速を達成し、最大6%の平均性能向上を示した。推論の頻度と遅延時間は、SimplerEnvで2.2倍、LIBEROで1.4倍向上しました。

Takeaways、Limitations

Takeaways:
VLAモデルの効率を向上させるための新しいフレームワークを提示します。
モデルスケジューリングとトークンプルーニングを組み合わせて時間的および空間的冗長性の両方を解決します。
実験による高加速性能と精度の維持を証明
ロボット制御や自律航行などのリアルタイム作業にVLAモデルを適用可能にする
Limitations:
軽量ジェネレータの性能と一般化能力によっては、性能の違いが生じる可能性があります。
モデルスケジューリングとトークンプルーニングの最適パラメータ設定に関するさらなる研究が必要
他のVLAモデルと環境の一般化性能検証が必要です。
👍