Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

NatureGAIA: Ampliando las fronteras de los agentes GUI con un conjunto de datos de referencia desafiante y de trayectoria de alta calidad

Created by
  • Haebom

Autor

Zihan Zheng, Tianle Cui, Chuwen Xie, Jiahui Zhang, Jiahui Pan, Lewei He, Qianglong Chen

Describir

Este artículo propone NaturalGAIA, un nuevo punto de referencia basado en el principio de vías causales (CPA), para abordar las limitaciones de precisión, reproducibilidad y escalabilidad de los puntos de referencia de evaluación existentes que dificultan el desarrollo de agentes de interfaz gráfica de usuario (GUI) basados en modelos de lenguaje (LLM) a gran escala. NaturalGAIA proporciona criterios de evaluación rigurosos, totalmente automatizados y reproducibles mediante la estructuración de tareas complejas en una serie de pasos atómicos verificables programáticamente. Además, para mitigar las fallas funcionales inherentes de los agentes, desarrollamos LightManus, una arquitectura de agente jerárquica optimizada para tareas a largo plazo. Esta arquitectura se utiliza para generar un conjunto de datos de alta calidad validado por humanos que captura los diversos patrones de interacción autocorrectivos de los LLM. Con este conjunto de datos, realizamos un ajuste fino mediante aprendizaje por refuerzo (RFT) en el modelo Qwen2.5-VL-7B. Los resultados experimentales demuestran que NaturalGAIA presenta desafíos significativos incluso para los LLM más avanzados. El modelo de mejor rendimiento, Claude-sonnet-4, alcanzó una tasa de éxito de ruta ponderada (WPSR) de tan solo el 34,6 %. Si bien RFT mejoró la capacidad de ejecución de la interfaz gráfica de usuario (GUI) de modelos pequeños (la WPSR aumentó del 3,3 % al 10,8 %), el rendimiento se degradó significativamente en escenarios complejos, lo que demuestra las limitaciones inherentes de rendimiento de los modelos pequeños al enfrentarse a tareas integrales que integran percepción, toma de decisiones y ejecución. Este estudio proporciona criterios de evaluación rigurosos y un conjunto de datos de alta calidad, que ofrecen orientación para el desarrollo futuro de agentes GUI.

Takeaways, Limitations

Takeaways:
Presentamos NaturalGAIA, un nuevo punto de referencia riguroso y reproducible para evaluar agentes GUI basados en LLM.
Desarrollo de LightManus, una arquitectura de agente jerárquico optimizada para tareas a largo plazo y generación de conjuntos de datos de alta calidad.
Demostrar experimentalmente la eficacia y las limitaciones de RFT para mejorar la capacidad de ejecución de la GUI de LLM.
Proporciona una evaluación realista de las capacidades de rendimiento de la GUI de los LLM de última generación actuales.
Limitations:
Se necesita más investigación sobre la escalabilidad y generalización del punto de referencia NaturalGAIA.
Se necesita más análisis para comprender por qué la efectividad de RFT varía significativamente según el tamaño del modelo.
Es necesario ampliar los puntos de referencia para cubrir tareas de GUI más diversas y complejas.
Es necesario verificar la generalización de la arquitectura de LightManus a otros LLM y tareas.
👍