Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Planificación bidireccional de tareas y movimientos basada en el aprendizaje de refuerzo jerárquico para la confrontación estratégica

Created by
  • Haebom

Autor

Qizhen Wu, Lei Chen, Kexin Liu, Jinhu Lu

Describir

Este artículo propone un novedoso enfoque bidireccional que integra comandos discretos y acciones continuas para una toma de decisiones eficiente en situaciones adversas, como enfrentamientos estratégicos, en robótica de enjambre. Los métodos existentes de planificación de tareas y movimientos desacoplan la toma de decisiones en dos capas, pero su estructura unidireccional no logra capturar las interdependencias entre capas, lo que limita la adaptabilidad en entornos dinámicos. El enfoque bidireccional propuesto, basado en el aprendizaje por refuerzo jerárquico, asigna eficazmente los comandos a las asignaciones de tareas y las acciones a la planificación de rutas, utilizando técnicas de entrenamiento cruzado para mejorar el aprendizaje en todo el marco jerárquico. Además, introduce un modelo de predicción de trayectorias que vincula las representaciones abstractas de tareas con los objetivos de planificación factibles. Los resultados experimentales demuestran que el enfoque propuesto supera a los métodos existentes, logrando una tasa de victorias superior al 80 % y un tiempo de toma de decisiones inferior a 0,01 segundos. La demostración mediante experimentos a gran escala y experimentos con robots en el mundo real resalta aún más la generalización y la viabilidad del enfoque propuesto.

Takeaways, Limitations

Takeaways:
El comportamiento eficiente y adaptativo en situaciones de confrontación de robots enjambre es posible mediante un método de toma de decisiones bidireccional basado en el aprendizaje de refuerzo jerárquico.
Consiga una alta tasa de victorias en partidos de más del 80% y un tiempo de toma de decisiones rápido de menos de 0,01 segundos.
Verificación de generalización y practicidad mediante simulaciones a gran escala y experimentos con robots reales.
Planificación de tareas y movimientos más eficiente mediante la integración de comandos discretos y acciones continuas.
Limitations:
El rendimiento del método propuesto puede depender del entorno experimental específico. Se requiere una validación adicional en diversos entornos.
La precisión del modelo de predicción de trayectorias puede afectar el rendimiento general del sistema. Se necesitan modelos de predicción más sofisticados.
La escala de los experimentos robóticos en el mundo real puede ser limitada. Se requiere una mayor verificación de la generalización mediante experimentos más extensos.
👍