[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Planification de trajectoire imitative renforcée pour la conduite automatisée urbaine

Created by
  • Haebom

Auteur

Di Zeng, Ling Zheng, Xiantong Yang, Yinong Li

Contour

Cet article propose une nouvelle méthode pour résoudre le problème de la sous-performance des méthodes existantes basées sur l'apprentissage par renforcement par imitation par rapport aux méthodes basées sur l'apprentissage par imitation, en raison du problème de convergence de l'apprentissage par renforcement et de la difficulté de concevoir la fonction de récompense dans la planification de trajectoires de conduite autonome urbaine basée sur l'apprentissage par renforcement (RL). Pour surmonter les limites des méthodes existantes, à savoir la planification en une seule étape et l'hypothèse d'une fonction de récompense linéaire, nous intégrons l'apprentissage par renforcement par imitation et l'apprentissage par imitation pour permettre une planification en plusieurs étapes, et développons une fonction de récompense bayésienne basée sur un transformateur pour fournir des signaux de récompense efficaces en milieu urbain. De plus, nous proposons un cadre de planification de trajectoire hybride pour améliorer la sécurité et l'interprétabilité. Les résultats expérimentaux obtenus à partir du jeu de données nuPlan montrent que la méthode proposée surpasse les méthodes existantes.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour résoudre efficacement les problèmes de convergence et les problèmes de conception de fonctions de récompense dans la planification de parcours de conduite autonome urbaine basée sur le RL.
Réaliser une planification en plusieurs étapes et améliorer les performances grâce à l’intégration de l’apprentissage par apprentissage et par imitation.
Fournir des signaux de compensation adaptés aux environnements urbains grâce à une fonction de récompense bayésienne basée sur un transformateur.
Améliorer la sécurité et l’interprétabilité grâce à un cadre hybride.
Vérification des performances par le biais d'expériences utilisant un ensemble de données de conduite autonome urbaine à grande échelle dans le monde réel (nuPlan).
Publication du code source ouvert.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Une évaluation de la robustesse pour divers environnements et situations urbaines est nécessaire.
Une analyse plus approfondie des coûts de calcul et des performances de traitement en temps réel est nécessaire.
👍