Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Avances en los agentes de GUI móviles: un enfoque basado en verificadores para la implementación práctica

Created by
  • Haebom

Autor

Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu

Describir

V-Droid es un agente de automatización de tareas con interfaz gráfica de usuario (GUI) móvil. A diferencia de los LLM tradicionales, que generan acciones directamente para cada paso, V-Droid utiliza LLM como verificador para evaluar las acciones candidatas. Para lograrlo, presentamos un marco integral que incluye un flujo de trabajo dedicado para crear y precargar un espacio de acción discretizado, aprendizaje interactivo de preferencias de progreso y un esquema escalable de anotación conjunta entre agentes y humanos. En múltiples pruebas de referencia de automatización de tareas móviles, como AndroidWorld, AndroidLab y MobileAgentBench, V-Droid alcanza tasas de éxito más altas (59,5 %, 38,3 % y 49 %, respectivamente) y una velocidad de procesamiento significativamente mayor (4,3 segundos por paso, 6,1 veces más rápido que los agentes existentes). El código fuente está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo paradigma de agente móvil que utiliza LLM como verificador.
Consiga mayores tasas de éxito en las tareas y una menor latencia en comparación con los agentes existentes.
Propuesta de un método de anotación colaborativa escalable para una recopilación eficiente de datos
Aumentar la reproducibilidad de la investigación y el potencial de desarrollo mediante la divulgación de código abierto.
Limitations:
Sólo se presentan los resultados de la evaluación del desempeño para puntos de referencia específicos, lo que requiere más investigación sobre la generalización.
Falta de análisis detallado del desempeño del verificador
Se necesita una validación adicional para garantizar su aplicabilidad a varios tipos de tareas móviles.
👍