Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Mobile-R1: Hacia el aprendizaje de refuerzo interactivo para agentes móviles basados en VLM mediante recompensas a nivel de tarea
Created by
Haebom
Autor
Jihao Gu, Qihang Ai, Yingyao Wang, Pi Bu, Jingxuan Xing, Zekun Zhu, Wei Jiang, Ziming Wang, Yingxiu Zhao, Ming-Liang Zhang, Jun Song, Yuning Jiang, Bo Zheng
Describir
En este artículo, estudiamos un agente móvil basado en un modelo de lenguaje visual que comprende comandos complejos y capturas de pantalla en un entorno móvil y optimiza sus acciones mediante aprendizaje de refuerzo (GRPO). Estudios previos se centraron en el entrenamiento de aprendizaje de refuerzo fuera de línea o la optimización en línea utilizando recompensas por unidad de acción, lo que limitó la interacción dinámica del agente con el entorno y a menudo se quedó atascado en óptimos locales. Para resolver este problema, este artículo propone Mobile-R1, una técnica interactiva de aprendizaje de refuerzo de múltiples rondas que utiliza recompensas por unidad de acción. Mobile-R1 consta de tres etapas: ajuste fino del formato inicial, entrenamiento en línea de una sola etapa con recompensas por unidad de acción y entrenamiento en línea con recompensas por unidad de acción basado en rutas de múltiples rondas. Construimos un nuevo punto de referencia de 500 rutas y un conjunto de datos de alta calidad anotados manualmente de 24,521 aplicaciones chinas, y divulgamos el conjunto de datos, el punto de referencia, los pesos del modelo y el código ( https://mobile-r1.github.io/Mobile-R1/ ).
Mejora de las capacidades de exploración y corrección de errores de los agentes móviles mediante el aprendizaje de refuerzo de múltiples rondas utilizando recompensas por unidad de trabajo
◦
Contribuya al avance de la investigación mediante el lanzamiento de 28 aplicaciones chinas, 24.521 conjuntos de datos anotados manualmente de alta calidad y puntos de referencia.
◦
El rendimiento superior de Mobile-R1 presenta nuevas posibilidades para la investigación de agentes móviles
•
Limitations:
◦
El conjunto de datos actual se limita a aplicaciones chinas, por lo que se necesita más investigación para determinar la generalización a otros idiomas y culturas.
◦
Se necesita más investigación sobre la complejidad y los problemas de optimización del diseño de compensación de unidades de trabajo.
◦
Necesidad de evaluar el rendimiento de generalización en diversos entornos y aplicaciones móviles