Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Un método de recompensa diferenciada para algoritmos de toma de decisiones cooperativas de múltiples vehículos basados en aprendizaje de refuerzo

Created by
  • Haebom

Autor

Ye Han, Lijun Zhang, Dejian Meng, Zhuang Zhang

Describir

En este artículo, proponemos un método de recompensa diferenciada basado en un sistema de transición de estado estacionario para resolver el problema de la degradación de la eficiencia de la muestra en la optimización de estrategias de conducción cooperativa multivehicular mediante aprendizaje por refuerzo (RL). Al integrar la información del gradiente de transición de estado en el diseño de la recompensa mediante el análisis de las características del flujo de tráfico, optimizamos la selección de acciones y el aprendizaje de políticas en la toma de decisiones cooperativa multivehicular. El rendimiento del método propuesto se verifica utilizando algoritmos de RL como MAPPO, MADQN y QMIX, y diversos entornos de ratio de vehículos autónomos. Como resultado, la velocidad de convergencia del aprendizaje mejora significativamente y supera a los métodos de recompensa central existentes en términos de eficiencia del tráfico, seguridad y racionalidad del comportamiento. Además, muestra una alta escalabilidad y adaptabilidad al entorno, lo que sugiere un nuevo enfoque para la toma de decisiones cooperativa multiagente en entornos de tráfico complejos.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo método de diseño de recompensas para resolver el problema de eficiencia de muestra del aprendizaje de refuerzo en la conducción cooperativa de múltiples vehículos.
Mejora del rendimiento de los algoritmos RL mediante el uso de información de gradiente de transición de estado a través del análisis de características del flujo de tráfico.
Practicidad confirmada a través de la verificación del desempeño en varios algoritmos RL y entornos de relación de vehículos autónomos.
Presentando la posibilidad de aplicarlo a sistemas de transporte reales a través de la mejora de la eficiencia del transporte, la seguridad y la racionalidad del comportamiento.
Un enfoque novedoso para resolver problemas de toma de decisiones cooperativas entre múltiples agentes en entornos de tráfico complejos.
Limitations:
El rendimiento del método propuesto puede depender de algoritmos RL específicos y entornos de simulación.
Falta de validación en entornos viales reales.
La verificación de robustez es necesaria para diversas situaciones de tráfico (por ejemplo, ocurrencia de accidentes, situaciones de emergencia).
Se necesita más investigación sobre cómo extraer y utilizar de manera eficiente la información del gradiente de transición de estado.
👍