Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje de refuerzo jerárquico multiescala temporal para el comportamiento unificado y el control de la conducción autónoma

Created by
  • Haebom

Autor

Guizhe Jin, Zhuoren Li, Bo Leng, Ran Yu, Lu Xiong, Chen Sun

Describir

Este artículo propone un enfoque de aprendizaje por refuerzo (AR) jerárquico multiescala temporal para abordar las deficiencias del diseño de la estructura de políticas en la conducción autónoma (CA). Los métodos de CA basados ​​en AR existentes a menudo resultan en inestabilidad o suboptimización del comportamiento de conducción debido a políticas que solo generan comandos de control del vehículo a corto plazo u objetivos de conducción a largo plazo. En este estudio, proponemos una estructura de políticas jerárquica que integra políticas de alto y bajo nivel para generar guías de conducción a largo plazo y comandos de control a corto plazo, respectivamente. Las políticas de alto nivel expresan explícitamente las guías de conducción como acciones híbridas que capturan el comportamiento de conducción multimodal y respaldan las actualizaciones de estado de las políticas de bajo nivel. Además, diseñamos un mecanismo de seguridad multiescala temporal para garantizar la seguridad. Los resultados de la evaluación en un escenario de autopista de varios carriles, tanto basados ​​en simuladores como utilizando el conjunto de datos HighD, demuestran que el enfoque propuesto mejora efectivamente la eficiencia de conducción, la consistencia del comportamiento y la seguridad.

Takeaways, Limitations

Takeaways:
Demostramos que el aprendizaje de refuerzo jerárquico en múltiples escalas de tiempo puede mejorar la estabilidad y la eficiencia de la conducción autónoma.
Esto sugiere que las representaciones de políticas de alto nivel que utilizan acciones híbridas pueden capturar eficazmente el comportamiento de conducción multimodal.
Demostramos que la seguridad en múltiples escalas de tiempo se puede lograr mediante un mecanismo de seguridad jerárquico.
Limitations:
Falta verificación del rendimiento del método propuesto en entornos viales reales.
La gran dependencia de simuladores y conjuntos de datos HighD requiere más investigación sobre el rendimiento de la generalización.
La complejidad de la estructura jerárquica puede incrementar el tiempo de entrenamiento y el costo computacional.
👍