Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CaRL : Apprentissage de politiques de planification évolutives avec des récompenses simples

Created by
  • Haebom

Auteur

Bernhard Jaeger, Daniel Dauner, Jens Bei{\ss}wenger, Simon Gerstenecker, Kashyap Chitta, Andreas Geiger

Contour

Cet article étudie l'apprentissage par renforcement (RL) pour la planification privilégiée en conduite autonome. Les approches existantes sont basées sur des règles, mais manquent d'évolutivité. En revanche, l'apprentissage par renforcement offre une évolutivité élevée et évite le problème d'erreurs cumulatives de l'apprentissage par imitation. Les approches d'apprentissage par renforcement existantes pour la conduite autonome utilisent des fonctions de récompense complexes qui agrègent plusieurs récompenses individuelles, telles que la progression, la position et l'orientation. Cet article démontre que l'apprentissage par renforcement (PPO) ne parvient pas à optimiser ces fonctions de récompense lorsque la taille du mini-lot augmente, ce qui limite son évolutivité. Par conséquent, cet article propose une nouvelle conception de récompense qui optimise une récompense intuitive unique : l'achèvement du chemin. Les violations sont sanctionnées soit par la fin de l'épisode, soit par une diminution multiplicative de l'achèvement du chemin. Nous démontrons que l'apprentissage par renforcement (PPO) avec la récompense simple proposée s'adapte bien aux mini-lots de plus grande taille et améliore les performances. L'apprentissage avec des mini-lots de grande taille permet une mise à l'échelle efficace grâce au parallélisme des données distribuées. Nous avons étendu l'apprentissage à 300 millions d'échantillons dans CARLA et 500 millions d'échantillons dans nuPlan sur un seul nœud à 8 GPU. Le modèle obtenu a obtenu 64 DS sur le benchmark CARLA longest6 v2, surpassant ainsi largement les autres méthodes RL utilisant des récompenses plus complexes. Avec des modifications minimes de la méthode CARLA, il a également obtenu la meilleure approche basée sur l'apprentissage sur nuPlan. Sur le benchmark Val14, il a obtenu 91,3 points pour le trafic non réactif et 90,6 points pour le trafic réactif, soit une amélioration de 10 fois par rapport aux recherches précédentes.

Takeaways, Limitations

Takeaways:
Nous améliorons considérablement l’évolutivité du PPO en utilisant une fonction simple de récompense d’achèvement de chemin.
Nous présentons une méthode permettant d’apprendre efficacement de grands ensembles de données.
Nous avons obtenu des performances SOTA sur les benchmarks CARLA et nuPlan.
Nous proposons une fonction de récompense plus simple et plus efficace que les fonctions de récompense complexes existantes.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si la méthode proposée est applicable à tous les environnements de conduite autonome.
La simplification de la fonction de récompense peut entraîner une dégradation des performances dans certaines situations.
ÉTant donné que les résultats de l’expérience ont été obtenus en utilisant des nœuds à 8 GPU, les performances dans des environnements avec moins de GPU n’ont pas été confirmées.
👍