Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

De la imitación a la optimización: un estudio comparativo del aprendizaje offline para la conducción autónoma

Created by
  • Haebom

Autor

Antonio Guillén-Pérez

Describir

Este artículo aborda el problema del aprendizaje de políticas robustas de conducción autónoma a partir de conjuntos de datos reales a gran escala. Considerando los desafíos de la recopilación de datos en línea, proponemos una serie de modelos basados ​​en la técnica de clonación de comportamiento (BC) y comparamos y estudiamos varios modelos de referencia de BC, incluyendo un modelo de representación de estados centrado en entidades basado en Transformer. Sin embargo, los modelos de BC presentan vulnerabilidades en simulaciones a largo plazo. Para abordar esto, aplicamos Conservative Q-Learning (CQL), un algoritmo de aprendizaje por refuerzo fuera de línea de última generación, a los mismos datos y arquitectura para aprender políticas más robustas. Utilizando una función de recompensa cuidadosamente diseñada, el agente CQL aprende una función de valor conservadora que se recupera de errores menores y evita estados fuera de distribución. En una evaluación a gran escala de 1000 escenarios desconocidos del conjunto de datos Waymo Open Motion, el agente CQL logró una tasa de éxito 3,2 veces mayor y una tasa de accidentes 7,4 veces menor que el modelo de referencia de BC de mejor rendimiento. Esto demuestra la importancia de los enfoques de aprendizaje de refuerzo fuera de línea para aprender políticas de conducción autónoma sólidas y a largo plazo a partir de datos estáticos de expertos.

Takeaways, Limitations

Takeaways:
Demostramos que el aprendizaje de refuerzo fuera de línea (CQL) se puede utilizar para aprender políticas de conducción autónoma que son significativamente más sólidas y a largo plazo que la replicación del comportamiento (BC).
Los modelos basados ​​en transformadores que utilizan representaciones de estados centradas en entidades funcionan bien en técnicas BC, pero logran un rendimiento aún mejor cuando se combinan con aprendizaje de refuerzo fuera de línea.
Una función de recompensa cuidadosamente diseñada juega un papel crucial en la robustez del agente CQL.
La eficacia del método propuesto se verificó mediante experimentos a gran escala utilizando el conjunto de datos Waymo Open Motion.
Limitations:
Diseñar una función de recompensa sigue siendo una tarea desafiante y su diseño puede afectar significativamente el rendimiento.
El algoritmo CQL puede ser computacionalmente costoso.
El rendimiento en entornos del mundo real requiere una verificación adicional.
El rendimiento de la generalización puede variar según las características del conjunto de datos utilizado.
👍