Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Un cadre multi-agent coopératif en cascade pour le contrôle de fusion de rampe d'accès intégrant de grands modèles de langage

Created by
  • Haebom

Auteur

Miao Zhang, Zhenlong Fang, Tianyi Wang, Qian Zhang, Shuai Lu, Junfeng Jiao, Tianyu Shi

Contour

Dans cet article, nous proposons un cadre d'apprentissage par renforcement hiérarchique coopératif multi-agents (CCMA) pour pallier les limites de l'apprentissage par renforcement (RL) conventionnel, telles que la difficulté de reproduire des comportements humains, la généralisation efficace dans des environnements multi-agents et les problèmes d'interprétabilité. Le CCMA intègre l'apprentissage par renforcement pour les interactions entre agents individuels, un LLM affiné pour la coopération locale, une fonction de récompense pour l'optimisation globale et un mécanisme de génération augmenté par la recherche pour l'optimisation dynamique des décisions dans des scénarios de conduite complexes. Les résultats expérimentaux montrent que le CCMA améliore significativement les performances aux niveaux micro et macro dans des environnements de conduite complexes par rapport aux méthodes d'apprentissage par renforcement conventionnelles.

Takeaways, Limitations

Takeaways:
Un nouveau cadre de collaboration multi-agents qui surmonte le __T11721_____ du RL existant est présenté.
Améliorer les performances de collaboration et de généralisation des multi-agents à l'aide de LLM
Amélioration des performances micro et macro dans des scénarios de conduite complexes
Optimisation dynamique des décisions grâce au mécanisme de génération d'augmentation de la recherche
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer l’applicabilité concrète du cadre proposé.
Complexité du réglage fin et de la conception de la fonction de récompense dans le LLM
Une validation supplémentaire de la généralisabilité est nécessaire en évaluant les performances dans des environnements de conduite spécifiques.
Des recherches supplémentaires sont nécessaires sur l’évolutivité vers d’autres systèmes multi-agents.
👍