Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model

Created by
  • Haebom

作者

Anqing Jiang, Yu Gao, Yiru Wang, Zhigang Sun, Shuo Wang, Yuwen Heng, Hao Sun, Shichen Tang, Lijuan Zhu, Jinhao Chai, Jijun Wang, Zichong Gu, Hao Jiang, Li Sun

概要

本論文は、自律走行のためのVision-Language-Action(VLA)モデルの2つの主な課題、すなわちオープンループ設定における模倣学習ベースの既存のVLAアーキテクチャの制限的な性能と高忠実度センサシミュレーションに大きく依存する閉ループ学習の困難を解決するためにIRL-VLAを提示します。 IRL-VLAは、逆強化化学(IRL)ベースの軽量補償世界モデルと自己構築VLAアプローチを組み合わせた閉ループ強化学習フレームワークです。 3つのフェーズで構成されたこのフレームワークは、まず模倣学習を通じてVLAポリシーを事前トレーニングし、2番目のステップでIRLを介して軽量補償の世界モデルを構築し、効率的な閉ループ補償計算を可能にします。最後に、PPO(Proximal Policy Optimization)を利用した特殊補償世界モデル案内強化学習を設計し、安全、快適性、交通効率を効果的にバランスよく調整します。 NAVSIM v2エンドツーエンド走行ベンチマークで最先端のパフォーマンスを達成し、CVPR2025自律走行グランドチャレンジで1位を獲得しました。

Takeaways、Limitations

Takeaways:
逆強化化学ベースの軽量補償世界モデルを活用して閉ループ強化学習の効率性を高めた新しいVLAフレームワーク(IRL-VLA)を提示。
模倣学習、逆強化化学、PPOベースの強化学習を組み合わせて、安全性、快適性、効率性をバランスよく考慮した自律走行性能向上。
NAVSIM v2ベンチマークとCVPR2025自律走行グランドチャレンジで優れた性能検証
閉ループ自律走行分野におけるVLA研究の発展に貢献
Limitations:
提示されたIRL-VLAフレームワークの一般化性能の追加評価が必要です。
実際の環境でのパフォーマンス検証と安全性を確保するための追加の研究が必要です。
軽量補償世界モデルの設計と学習プロセスの詳細な説明の欠如
さまざまな環境と状況に適応するための追加の研究が必要です。
👍