Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage par renforcement hybride basé sur l'action pour une conduite autonome multi-objectifs compatible

Created by
  • Haebom

Auteur

Guizhe Jin, Zhuoren Li, Bo Leng, Wei Han, Lu Xiong, Chen Sun

Contour

Cet article propose une méthode d'apprentissage par renforcement par discrimination d'ensemble multi-objectifs utilisant des actions à paramètres mixtes pour résoudre le problème de compatibilité multi-objectifs en conduite autonome. Les méthodes d'apprentissage par renforcement existantes peinent à atteindre la compatibilité multi-objectifs dans des scénarios de conduite complexes en raison de leur réseau à évaluation unique et de leur structure d'espace d'action à type unique. La méthode proposée relève ces défis en utilisant une méthode de discrimination d'ensemble qui se concentre sur différents objectifs via des fonctions de récompense indépendantes. De plus, en intégrant des structures d'espace d'action à paramètres mixtes, elle génère des comportements de conduite qui englobent à la fois un guidage abstrait et des commandes de contrôle concrètes. Enfin, elle développe un mécanisme de recherche basé sur l'incertitude qui prend en charge les actions mixtes pour accélérer l'apprentissage de politiques compatibles avec les objectifs multiples. Les résultats expérimentaux obtenus sur des scénarios d'autoroutes à plusieurs voies, à la fois sur simulateur et sur le jeu de données HighD, démontrent que la méthode proposée apprend efficacement la conduite autonome compatible avec les objectifs multiples en termes d'efficacité, de cohérence comportementale et de sécurité.

Takeaways, Limitations

Takeaways:
Fournir une solution efficace au problème de la conduite autonome multi-objectifs.
Flexibilité de conduite améliorée et variabilité comportementale réduite grâce à une structure d'espace d'action à paramètres mixtes.
Apprentissage accéléré grâce à des mécanismes d'exploration basés sur l'incertitude
Vérification des performances grâce à des expériences basées sur des simulateurs et des ensembles de données du monde réel
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Une vérification d’applicabilité est requise pour divers environnements de conduite complexes.
Des recherches supplémentaires sont nécessaires sur la conception et l’optimisation des structures d’espace d’action à paramètres mixtes.
La vérification de la sécurité et de la fiabilité dans des environnements routiers réels est nécessaire.
👍