Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje de refuerzo basado en acciones híbridas para una conducción autónoma compatible con múltiples objetivos

Created by
  • Haebom

Autor

Guizhe Jin, Zhuoren Li, Bo Leng, Wei Han, Lu Xiong, Chen Sun

Describir

Este artículo propone un método de aprendizaje por refuerzo de discriminación por conjuntos multiobjetivo que utiliza acciones con parámetros mixtos para abordar el problema de compatibilidad multiobjetivo en la conducción autónoma. Los métodos de aprendizaje por refuerzo existentes tienen dificultades para lograr la compatibilidad multiobjetivo en escenarios de conducción complejos debido a su red de valoración única y su estructura de espacio de acción de tipo único. El método propuesto aborda estos desafíos utilizando un método de discriminación por conjuntos que se centra en diferentes objetivos a través de funciones de recompensa independientes. Además, al incorporar estructuras de espacio de acción con parámetros mixtos, genera comportamientos de conducción que abarcan tanto la guía abstracta como los comandos de control concretos. Finalmente, desarrolla un mecanismo de búsqueda basado en la incertidumbre que admite acciones mixtas para acelerar el aprendizaje de políticas compatibles con múltiples objetivos. Los resultados experimentales en escenarios de carreteras de varios carriles, tanto basados ​​en simuladores como en el conjunto de datos HighD, demuestran que el método propuesto aprende eficientemente la conducción autónoma compatible con múltiples objetivos en términos de eficiencia, consistencia del comportamiento y seguridad.

Takeaways, Limitations

Takeaways:
Proporcionar una solución eficaz al problema de la conducción autónoma multiobjetivo.
Mayor flexibilidad de conducción y menor variabilidad del comportamiento mediante una estructura de espacio de acción con parámetros mixtos.
Aprendizaje acelerado a través de mecanismos de exploración basados ​​en la incertidumbre
Verificación del rendimiento mediante simuladores y experimentos basados ​​en conjuntos de datos del mundo real
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Se requiere verificación de aplicabilidad para diversos entornos de conducción complejos.
Se necesita más investigación sobre el diseño y la optimización de estructuras espaciales de acción con parámetros mixtos.
Es necesaria la verificación de la seguridad y la confiabilidad en entornos viales reales.
👍