Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CaRL: Aprendizaje de políticas de planificación escalables con recompensas sencillas

Created by
  • Haebom

Autor

Bernhard Jaeger, Daniel Dauner, Jens Bei{\ss}wenger, Simon Gerstenecker, Kashyap Chitta, Andreas Geiger

Describir

Este artículo estudia el aprendizaje por refuerzo (AR) para la planificación privilegiada en la conducción autónoma. Los enfoques existentes se basan en reglas, pero carecen de escalabilidad. En cambio, el AR ofrece alta escalabilidad y evita el problema del error acumulativo del aprendizaje por imitación. Los enfoques de AR existentes para la conducción autónoma utilizan funciones de recompensa complejas que agregan múltiples recompensas individuales, como el progreso, la posición y la orientación. Este artículo demuestra que el PPO no optimiza estas funciones de recompensa a medida que aumenta el tamaño del minilote, lo que limita su escalabilidad. Por lo tanto, este artículo propone un novedoso diseño de recompensa que optimiza una única recompensa intuitiva: la finalización de la ruta. Las infracciones se penalizan con la finalización del episodio o con una disminución multiplicativa de la finalización de la ruta. Demostramos que el PPO entrenado con la recompensa simple propuesta escala adecuadamente con minilotes de mayor tamaño y logra un rendimiento mejorado. El entrenamiento con minilotes de gran tamaño permite un escalado eficiente mediante paralelismo de datos distribuidos. Escalamos el entrenamiento a 300 millones de muestras en CARLA y 500 millones de muestras en nuPlan en un único nodo de 8 GPU. El modelo resultante obtuvo 64 DS en el benchmark CARLA longest6 v2, superando significativamente a otros métodos de aprendizaje por aprendizaje (RL) con recompensas más complejas. Con modificaciones mínimas en el método CARLA, también logró el mejor enfoque basado en el aprendizaje en nuPlan. En el benchmark Val14, obtuvo 91,3 puntos para tráfico no responsivo y 90,6 puntos para tráfico responsivo, lo que representa una mejora de 10 veces con respecto a estudios anteriores.

Takeaways, Limitations

Takeaways:
Mejoramos significativamente la escalabilidad de PPO mediante el uso de una función de recompensa por completar la ruta simple.
Presentamos un método para aprender eficientemente grandes conjuntos de datos.
Logramos un desempeño SOTA en los puntos de referencia CARLA y nuPlan.
Proponemos una función de recompensa más simple y efectiva que las complejas funciones de recompensa existentes.
Limitations:
Se necesitan más investigaciones para determinar si el método propuesto es aplicable a todos los entornos de conducción autónoma.
La simplificación de la función de recompensa puede resultar en una degradación del rendimiento en determinadas situaciones.
Dado que los resultados del experimento se obtuvieron utilizando nodos de 8 GPU, no se ha confirmado el rendimiento en entornos con menos GPU.
👍