Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

OpenCUA: Fundamentos abiertos para agentes de uso informático

Created by
  • Haebom

Autor

Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Haotian Yao, Ziwei Chen, Qizheng Gu, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu

Describir

Este artículo propone OpenCUA, un marco de código abierto para optimizar el potencial y la accesibilidad de los agentes asistidos por computadora (CUA). OpenCUA consta de una infraestructura de anotación que captura demostraciones asistidas por computadora; AgentNet, un conjunto de datos de tareas asistidas por computadora a gran escala que abarca tres sistemas operativos y más de 200 aplicaciones y sitios web; y una canalización escalable que convierte estas demostraciones en pares estado-acción. El modelo OpenCUA-32B alcanzó una tasa de éxito del 34,8 % en la prueba de referencia verificada por OSWorld, alcanzando el mayor rendimiento entre los modelos de código abierto y superando a OpenAI CUA (GPT-4o). Este estudio sienta las bases para la investigación en CUA al publicar las herramientas de anotación, los conjuntos de datos, el código y los modelos.

Takeaways, Limitations

Takeaways:
Promover y mejorar la accesibilidad de la investigación de la CUA proporcionando un marco de la CUA de código abierto.
Lanzamiento de AgentNet, un conjunto de datos de tareas basado en computadora a gran escala.
Superar las limitaciones de rendimiento de los modelos de código abierto con el modelo OpenCUA-32B.
Verificación del rendimiento de generalización en varios dominios y mejora del rendimiento debido al aumento de los cálculos del tiempo de prueba.
Limitations:
El rendimiento actual aún no es perfecto (tasa de éxito del 34,8 %) y se necesita más investigación para lograr un mayor rendimiento.
Es posible que se necesiten más mejoras para aumentar el alcance y la diversidad del conjunto de datos de AgentNet.
Posible sesgo hacia sistemas operativos y aplicaciones específicas.
👍