Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Planification bidirectionnelle des tâches et des mouvements basée sur l'apprentissage par renforcement hiérarchique pour la confrontation stratégique

Created by
  • Haebom

Auteur

Qizhen Wu, Lei Chen, Kexin Liu, Jinhu Lu

Contour

Cet article propose une nouvelle approche bidirectionnelle intégrant des commandes discrètes et des actions continues pour une prise de décision efficace dans des situations conflictuelles, telles que des confrontations stratégiques, en robotique en essaim. Les méthodes existantes de planification des tâches et des mouvements découplent la prise de décision en deux couches, mais leur structure unidirectionnelle ne parvient pas à capturer les interdépendances entre les couches, limitant ainsi l'adaptabilité dans les environnements dynamiques. L'approche bidirectionnelle proposée, basée sur l'apprentissage par renforcement hiérarchique, associe efficacement les commandes aux affectations de tâches et les actions à la planification de trajectoire, en utilisant des techniques d'entraînement croisé pour améliorer l'apprentissage dans le cadre hiérarchique. De plus, elle introduit un modèle de prédiction de trajectoire qui relie les représentations abstraites des tâches à des objectifs de planification réalisables. Les résultats expérimentaux démontrent que l'approche proposée surpasse les méthodes existantes, atteignant un taux de victoire de plus de 80 % et un temps de prise de décision inférieur à 0,01 seconde. La démonstration par des expériences à grande échelle et des expériences robotiques réelles souligne encore la généralisabilité et la praticabilité de l'approche proposée.

Takeaways, Limitations

Takeaways:
Un comportement efficace et adaptatif dans les situations de confrontation des robots en essaim est possible grâce à une méthode de prise de décision bidirectionnelle basée sur l'apprentissage par renforcement hiérarchique.
Atteignez un taux de victoire élevé de plus de 80 % et un temps de prise de décision rapide de moins de 0,01 seconde.
Vérification de la généralisabilité et de la praticabilité par des simulations à grande échelle et des expériences réelles sur des robots.
Planification plus efficace des tâches et des mouvements grâce à l'intégration de commandes discrètes et d'actions continues.
Limitations:
Les performances de la méthode proposée peuvent dépendre de l'environnement expérimental spécifique. Une validation complémentaire dans différents environnements est nécessaire.
La précision du modèle de prédiction de trajectoire peut avoir un impact sur les performances globales du système. Des modèles de prédiction plus sophistiqués sont nécessaires.
L'ampleur des expériences robotiques en conditions réelles pourrait être limitée. Des vérifications supplémentaires de la généralisabilité sont nécessaires par des expériences plus approfondies.
👍