Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

IRL-VLA : Formation à une politique Vision-Langage-Action via le modèle mondial de récompense

작성자
  • Haebom

Auteur

Anqing Jiang, Yu Gao, Yiru Wang, Zhigang Sun, Shuo Wang, Yuwen Heng, Hao Sun, Shichen Tang, Lijuan Zhu, Jinhao Chai, Jijun Wang, Zichong Gu, Hao Jiang, Li Sun

Contour

Cet article présente l'IRL-VLA afin de relever deux défis majeurs des modèles Vision-Langage-Action (VLA) pour la conduite autonome : les performances limitées des architectures VLA existantes basées sur l'apprentissage par imitation en boucle ouverte et les défis de l'apprentissage en boucle fermée, qui repose fortement sur des simulations de capteurs haute fidélité. IRL-VLA est un framework d'apprentissage par renforcement en boucle fermée qui combine un modèle de monde de récompense léger basé sur l'apprentissage par renforcement inverse (IRL) avec une approche VLA auto-construite. Composé de trois étapes, le framework pré-entraîne d'abord les politiques VLA par imitation. Dans un deuxième temps, il construit un modèle de monde de récompense léger via IRL, permettant un calcul efficace des récompenses en boucle fermée. Enfin, il conçoit un apprentissage par renforcement guidé par un modèle de monde de récompense spécialisé utilisant l'optimisation des politiques proximales (PPO) pour équilibrer efficacement la sécurité, le confort et l'efficacité du trafic. Il atteint des performances de pointe sur le benchmark de conduite de bout en bout NAVSIM v2 et s'est classé premier au Grand Challenge de conduite autonome CVPR2025.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre VLA (IRL-VLA) qui améliore l'efficacité de l'apprentissage par renforcement en boucle fermée en utilisant un modèle de monde de récompense léger basé sur l'apprentissage par renforcement inverse.
Améliorer les performances de conduite autonome en combinant l'apprentissage par imitation, l'apprentissage par renforcement inverse et l'apprentissage par renforcement basé sur PPO pour équilibrer la sécurité, le confort et l'efficacité.
Excellentes performances vérifiées dans le benchmark NAVSIM v2 et le CVPR2025 Autonomous Driving Grand Challenge.
Contribuer à l'avancement de la recherche VLA dans le domaine de la conduite autonome en boucle fermée.
Limitations:
Une évaluation plus approfondie des performances de généralisation du cadre IRL-VLA proposé est nécessaire.
Des recherches supplémentaires sont nécessaires pour vérifier les performances et garantir la sécurité dans des environnements réels.
Manque de description détaillée de la conception et du processus d'apprentissage du modèle de monde de récompense léger.
Des recherches supplémentaires sont nécessaires sur l’adaptabilité à divers environnements et situations.
👍