Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

De l'imitation à l'optimisation : une étude comparative de l'apprentissage hors ligne pour la conduite autonome

Created by
  • Haebom

Auteur

Antonio Guillen-Perez

Contour

Cet article aborde la problématique de l'apprentissage de politiques de conduite autonome robustes à partir de vastes ensembles de données réelles. Compte tenu des défis liés à la collecte de données en ligne, nous proposons une série de modèles basés sur la technique du clonage de comportement (BC) et comparons et étudions plusieurs modèles de référence de BC, dont un modèle de représentation d'état centré sur l'entité basé sur Transformer. Cependant, les modèles de BC présentent des vulnérabilités dans les simulations à long terme. Pour y remédier, nous appliquons le Q-Learning conservateur (CQL), un algorithme d'apprentissage par renforcement hors ligne de pointe, aux mêmes données et à la même architecture afin d'apprendre des politiques plus robustes. Grâce à une fonction de récompense soigneusement conçue, l'agent CQL apprend une fonction de valeur conservatrice qui récupère les erreurs mineures et évite les états hors distribution. Lors d'une évaluation à grande échelle portant sur 1 000 scénarios inconnus issus de l'ensemble de données Waymo Open Motion, l'agent CQL a obtenu un taux de réussite 3,2 fois supérieur et un taux d'accident 7,4 fois inférieur à celui du modèle de référence de BC le plus performant. Cela démontre l’importance des approches d’apprentissage par renforcement hors ligne pour l’apprentissage de politiques de conduite autonome robustes et à long terme à partir de données d’experts statiques.

Takeaways, Limitations

Takeaways:
Nous démontrons que l’apprentissage par renforcement hors ligne (CQL) peut être utilisé pour apprendre des politiques de conduite autonome qui sont nettement plus robustes et à long terme que la réplication du comportement (BC).
Les modèles basés sur des transformateurs utilisant des représentations d'état centrées sur les entités fonctionnent bien dans les techniques BC, mais atteignent des performances encore meilleures lorsqu'ils sont combinés à l'apprentissage par renforcement hors ligne.
Une fonction de récompense soigneusement conçue joue un rôle crucial dans la robustesse de l'agent CQL.
L’efficacité de la méthode proposée a été vérifiée par des expériences à grande échelle utilisant le jeu de données Waymo Open Motion.
Limitations:
Concevoir une fonction de récompense reste une tâche difficile, et sa conception peut avoir un impact significatif sur les performances.
L'algorithme CQL peut être coûteux en termes de calcul.
Les performances dans des environnements réels nécessitent une vérification supplémentaire.
Les performances de généralisation peuvent varier en fonction des caractéristiques de l’ensemble de données utilisé.
👍