Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RL basado en modelos de primer orden mediante retropropagación desacoplada

Created by
  • Haebom

Autor

Joseph Amigo, Rooholla Khorrambakht, Elliot Chane-Sane, Nicolas Mansard, Ludovic Righetti

Describir

Este artículo explora cómo mejorar la eficiencia del aprendizaje de refuerzo (RL) aprovechando las derivadas del simulador. Si bien los enfoques existentes basados ​​en gradientes han demostrado un rendimiento superior al de los enfoques no derivados, acceder a los gradientes del simulador sigue siendo un desafío debido a los costos de implementación o la inaccesibilidad. El aprendizaje de refuerzo basado en modelos (MBRL) puede aproximar estos gradientes mediante modelos dinámicos aprendidos, pero los errores de predicción se acumulan durante el entrenamiento, lo que podría reducir la eficiencia del solucionador y el rendimiento de las políticas. En este artículo, proponemos un método que desacopla la generación de trayectorias y el cálculo de gradientes. Las trayectorias se desarrollan mediante un simulador y los gradientes se calculan mediante retropropagación a través del modelo diferenciable aprendido del simulador. Este diseño híbrido permite una optimización de políticas de primer orden eficiente y consistente, incluso cuando no se dispone de gradientes del simulador, y permite aprender evaluadores más precisos a partir de trayectorias simuladas. El método propuesto logra la eficiencia y velocidad de muestreo de optimizadores especializados como SHAC, a la vez que mantiene la generalidad de enfoques estándar como PPO y evita los errores observados en otros métodos MBRL de primer orden. Validamos experimentalmente el algoritmo en tareas de control de referencia y demostramos su eficacia en un robot cuadrúpedo Go2 real en tareas de marcha cuadrúpeda y bípeda.

Takeaways, Limitations

Takeaways:
Se presenta un método de aprendizaje de refuerzo eficiente para superar las dificultades del enfoque del gradiente del simulador.
Mejorar la eficiencia y la estabilidad de la optimización de políticas de primer orden separando la generación de trayectorias y el cálculo de gradientes.
Combinando la eficiencia muestral de SHAC con la generalidad de PPO.
Validación de la eficacia del algoritmo mediante experimentos reales con robots.
Superar Limitations (acumulación de errores de predicción) de los métodos MBRL existentes.
Limitations:
Se necesitan más investigaciones sobre la generalidad del método propuesto y los dominios problemáticos a los que se puede aplicar.
Se necesita más análisis para determinar cómo la precisión del modelo diferenciable aprendido afecta el rendimiento general del sistema.
Se necesita una evaluación del desempeño en sistemas y entornos robóticos más complejos y diversos.
Se necesita una mayor verificación de la escalabilidad en espacios de estados de alta dimensión.
👍