Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

OS-Genesis: Automatización de la construcción de trayectorias de agentes GUI mediante síntesis de tareas inversas

Created by
  • Haebom

Autor

Qiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu

Describir

En este artículo, proponemos OS-Genesis, un novedoso método para abordar los desafíos de recopilar datos de trayectorias de alta calidad para el entrenamiento de agentes GUI basados ​​en Modelos de Lenguaje de Visión (VLM). Los métodos existentes se basan en la supervisión humana o en tareas predefinidas para generar datos sintéticos, lo cual consume muchos recursos o presenta limitaciones para garantizar la calidad de los datos. OS-Genesis propone una novedosa secuencia de síntesis de datos para abordar estos problemas, en la que los agentes primero perciben el entorno y realizan interacciones paso a paso, para luego derivar tareas de alta calidad de forma inversa que permiten la exploración a nivel de trayectoria. La calidad de las trayectorias generadas se garantiza mediante un modelo de recompensa de trayectoria, y los resultados experimentales muestran que los agentes GUI entrenados con OS-Genesis mejoran significativamente su rendimiento en exigentes pruebas de referencia en línea. También verificamos la eficiencia de OS-Genesis y su superior calidad y diversidad de datos en comparación con los métodos de síntesis existentes mediante un análisis exhaustivo. El código, los datos y los puntos de control están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Contribuyó a resolver el desafío de recopilar datos de alta calidad para el entrenamiento del agente GUI.
Superar las limitaciones de los métodos existentes de supervisión humana y de generación de datos sintéticos.
OS-Genesis permite una generación de datos más eficiente, diversa y de alta calidad.
Verificación de mejoras de rendimiento de agentes GUI en exigentes pruebas de rendimiento en línea.
Aumentar la reproducibilidad y escalabilidad de la investigación mediante la apertura del código, los datos y los puntos de control.
Limitations:
El rendimiento de OS-Genesis puede estar sesgado hacia ciertos tipos de entornos o tareas de GUI.
Se necesita más investigación sobre el diseño y la optimización del modelo de compensación de trayectoria.
La dificultad de generar datos sintéticos que reflejen perfectamente la complejidad del mundo real.
👍