Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SimpleVLA-RL: Escalado del entrenamiento VLA mediante aprendizaje por refuerzo

Created by
  • Haebom

Autor

Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding

Describir

Este artículo propone el marco SimpleVLA-RL, que mejora la planificación de acciones paso a paso a largo plazo de los modelos Visión-Lenguaje-Acción (VLA) mediante aprendizaje por refuerzo (RL). Para abordar la dependencia de los modelos VLA existentes del ajuste fino supervisado (SFT) a gran escala y su dificultad para generalizar a cambios de distribución, introducimos el muestreo de trayectorias específico para VLA, la paralelización escalable, la renderización multientorno y el cálculo optimizado de pérdidas basado en veRL. SimpleVLA-RL, aplicado a OpenVLA-OFT, alcanza un rendimiento de vanguardia en LIBERO y supera a $\pi_0$ en RoboTwin 1.0 y 2.0 mediante una estrategia de refuerzo exploratorio. Además, identificamos un fenómeno novedoso denominado "pushcut", que descubre patrones ocultos durante el entrenamiento de RL. Este fenómeno permite la reducción de la dependencia de datos a gran escala, una generalización robusta y un rendimiento superior al de SFT en tareas del mundo real.

Takeaways, Limitations

Takeaways:
Demostramos que la capacidad de planificación a largo plazo del modelo VLA se puede mejorar eficazmente mediante el aprendizaje de refuerzo.
Reduce la dependencia de datos SFT a gran escala y logra un rendimiento de generalización sólido frente a cambios de distribución.
Supera a los modelos basados ​​en SFT en tareas robóticas del mundo real.
Ampliamos aún más el potencial del modelo VLA al descubrir un nuevo patrón de comportamiento, el fenómeno "pushcut", durante el entrenamiento RL.
Limitations:
La mejora del rendimiento de SimpleVLA-RL puede estar limitada a ciertos entornos (LIBERO, RoboTwin).
Se necesitan más investigaciones sobre la generalidad y las causas del fenómeno "pushcut".
Se necesitan evaluaciones de desempeño de generalización adicionales para varias plataformas y tareas de robots.
👍