Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage par renforcement hiérarchique multi-échelles de temps pour un comportement et un contrôle unifiés de la conduite autonome

Created by
  • Haebom

Auteur

Guizhe Jin, Zhuoren Li, Bo Leng, Ran Yu, Lu Xiong, Chen Sun

Contour

Cet article propose une approche d'apprentissage par renforcement hiérarchique (RL) multi-échelles de temps pour pallier les lacunes de la conception de structures de politiques en conduite autonome (CA). Les méthodes de CA existantes basées sur l'RL entraînent souvent une instabilité ou une sous-optimisation du comportement de conduite en raison de politiques qui ne génèrent que des commandes de contrôle du véhicule à court terme ou des objectifs de conduite à long terme. Dans cette étude, nous proposons une structure de politiques hiérarchique qui intègre des politiques de haut et de bas niveau pour générer respectivement des instructions de conduite à long terme et des instructions de contrôle à court terme. Les politiques de haut niveau expriment explicitement l'instruction de conduite sous forme d'actions hybrides qui capturent le comportement de conduite multimodal et prennent en charge les mises à jour d'état des politiques de bas niveau. De plus, nous concevons un mécanisme de sécurité multi-échelles de temps pour garantir la sécurité. Les résultats d'évaluation sur un scénario d'autoroute à plusieurs voies, à la fois sur simulateur et à l'aide du jeu de données HighD, démontrent que l'approche proposée améliore efficacement l'efficacité de conduite, la cohérence du comportement et la sécurité.

Takeaways, Limitations

Takeaways:
Nous démontrons que l’apprentissage par renforcement hiérarchique à plusieurs échelles de temps peut améliorer la stabilité et l’efficacité de la conduite autonome.
Cela suggère que les représentations politiques de haut niveau utilisant des actions hybrides peuvent capturer efficacement le comportement de conduite multimodal.
Nous démontrons que la sécurité sur plusieurs échelles de temps peut être obtenue grâce à un mécanisme de sécurité hiérarchique.
Limitations:
Il existe un manque de vérification des performances de la méthode proposée dans des environnements routiers réels.
La forte dépendance aux simulateurs et aux ensembles de données HighD nécessite des recherches supplémentaires sur les performances de généralisation.
La complexité de la structure hiérarchique peut augmenter le temps de formation et le coût de calcul.
👍