Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje de refuerzo fuera de línea en el mundo real a partir de la retroalimentación del modelo de lenguaje visual

Created by
  • Haebom

Autor

Sreyas Venkataraman, Yufei Wang, Ziyu Wang, Navin Sriram Ravie, Zackory Erickson, David Held

Describir

Este artículo analiza el aprendizaje por refuerzo fuera de línea (ARL), que permite el aprendizaje de políticas a partir de conjuntos de datos precolectados y subóptimos sin interacción en línea. Este enfoque es especialmente adecuado para robots reales o escenarios críticos para la seguridad donde la recolección de datos en línea o las demostraciones de expertos son lentas, costosas y peligrosas. La mayoría de los estudios existentes de AR fuera de línea asumen que el conjunto de datos ya está etiquetado con recompensas de tarea, pero esto requiere un esfuerzo significativo, especialmente en escenarios reales donde la verdad fundamental es difícil de determinar. En este artículo, proponemos un sistema novedoso basado en RL-VLM-F, que genera automáticamente etiquetas de recompensa para conjuntos de datos fuera de línea utilizando la retroalimentación de preferencias de un modelo de visión-lenguaje y descripciones textuales de tareas. Este método entrena políticas utilizando AR fuera de línea con el conjunto de datos de recompensa etiquetado. Demostramos su aplicabilidad a la compleja tarea de vestir un robot real. Primero, aprendemos las funciones de recompensa de un conjunto de datos fuera de línea subóptimo utilizando un modelo de visión-lenguaje, y luego usamos las recompensas aprendidas para desarrollar una política de vestir efectiva mediante aprendizaje Q implícito. También ofrece un buen rendimiento en tareas de simulación que implican la manipulación de objetos rígidos y deformables, superando significativamente las líneas de base, como la clonación de comportamiento y el aprendizaje por refuerzo inverso (RL). En resumen, proponemos un sistema novedoso que permite el etiquetado automático de recompensas y el aprendizaje de políticas a partir de conjuntos de datos fuera de línea subóptimos y sin etiquetar.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método para generar automáticamente etiquetas de recompensa para conjuntos de datos fuera de línea utilizando modelos de lenguaje de visión, aumentando así la aplicabilidad en el mundo real del aprendizaje de refuerzo fuera de línea.
Supera los métodos existentes tanto en tareas reales de preparación de robots como en tareas de simulación.
Demostramos la eficacia del aprendizaje de refuerzo fuera de línea para tareas complejas.
Limitations:
Depende del rendimiento del modelo de lenguaje visión, y una degradación en el rendimiento del modelo puede afectar el rendimiento de todo el sistema.
Es necesaria una mayor validación de la capacidad de generalización del modelo visión-lenguaje utilizado.
Se necesita investigación para mejorar aún más la generalización del aprendizaje de la función de recompensa para tareas específicas.
El rendimiento puede variar según la variedad y complejidad de los conjuntos de datos del mundo real.
👍