Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mobile-R1: Hacia el aprendizaje de refuerzo interactivo para agentes móviles basados ​​en VLM mediante recompensas a nivel de tarea

Created by
  • Haebom

Autor

Jihao Gu, Qihang Ai, Yingyao Wang, Pi Bu, Jingxuan Xing, Zekun Zhu, Wei Jiang, Ziming Wang, Yingxiu Zhao, Ming-Liang Zhang, Jun Song, Yuning Jiang, Bo Zheng

Describir

En este artículo, estudiamos un agente móvil basado en un modelo de lenguaje visual que comprende comandos complejos y capturas de pantalla en un entorno móvil y optimiza sus acciones mediante aprendizaje de refuerzo (GRPO). Estudios previos se centraron en el entrenamiento de aprendizaje de refuerzo fuera de línea o la optimización en línea utilizando recompensas por unidad de acción, lo que limitó la interacción dinámica del agente con el entorno y a menudo se quedó atascado en óptimos locales. Para resolver este problema, este artículo propone Mobile-R1, una técnica interactiva de aprendizaje de refuerzo de múltiples rondas que utiliza recompensas por unidad de acción. Mobile-R1 consta de tres etapas: ajuste fino del formato inicial, entrenamiento en línea de una sola etapa con recompensas por unidad de acción y entrenamiento en línea con recompensas por unidad de acción basado en rutas de múltiples rondas. Construimos un nuevo punto de referencia de 500 rutas y un conjunto de datos de alta calidad anotados manualmente de 24,521 aplicaciones chinas, y divulgamos el conjunto de datos, el punto de referencia, los pesos del modelo y el código ( https://mobile-r1.github.io/Mobile-R1/ ).

Takeaways, Limitations

Takeaways:
Mejora de las capacidades de exploración y corrección de errores de los agentes móviles mediante el aprendizaje de refuerzo de múltiples rondas utilizando recompensas por unidad de trabajo
Contribuya al avance de la investigación mediante el lanzamiento de 28 aplicaciones chinas, 24.521 conjuntos de datos anotados manualmente de alta calidad y puntos de referencia.
El rendimiento superior de Mobile-R1 presenta nuevas posibilidades para la investigación de agentes móviles
Limitations:
El conjunto de datos actual se limita a aplicaciones chinas, por lo que se necesita más investigación para determinar la generalización a otros idiomas y culturas.
Se necesita más investigación sobre la complejidad y los problemas de optimización del diseño de compensación de unidades de trabajo.
Necesidad de evaluar el rendimiento de generalización en diversos entornos y aplicaciones móviles
👍