Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

Created by
  • Haebom

作者

Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zang Jiang Yao Mu, Bowen Zhou, Ning Ding

概要

この論文では、Vision-Language-Action(VLA)モデルの長期的な段階的な行動計画を強化学習(RL)を通じて強化するSimpleVLA-RLフレームワークを提案します。従来のVLAモデルの大規模なSFT(supervised fine-tuning)への依存性と分布の移動に対する一般化の難しさを解決するために、veRLに基づいてVLAに特化した軌跡サンプリング、スケーラブルな並列化、多重環境レンダリング、最適化された損失計算などを導入しました。 OpenVLA-OFTに適用されたSimpleVLA-RLはLIBEROで最先端のパフォーマンスを達成し、ナビゲーション強化戦略を通じてRoboTwin 1.0&2.0で$ \ pi_0 $を上回る結果を示しました。さらに、RLトレーニング中に既存のトレーニングコースで見られなかったパターンを発見する「プッシュカット」という新しい現象を確認しました。これにより、大規模なデータ依存性の削減、堅牢な一般化、実際の作業でSFTを上回るパフォーマンスが可能になります。

Takeaways、Limitations

Takeaways:
VLAモデルの長期計画能力が強化学習を通じて効果的に向上できることを示しています。
大規模SFTデータへの依存性を減らし、分布移動に対する堅牢な一般化性能を達成。
実際のロボット作業でSFTベースのモデルを凌駕する性能を示す。
RLトレーニング中に新たな行動パターン「pushcut」現象を発見し、VLAモデルの可能性をさらに拡張。
Limitations:
SimpleVLA-RLのパフォーマンス向上が特定の環境(LIBERO、RoboTwin)に限定される可能性。
「プッシュカット」現象の一般性と原因に関するさらなる研究が必要です。
さまざまなロボットプラットフォームと作業の一般化性能評価が必要です。
👍