Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Informe técnico de UI-TARS-2: Mejora del agente de interfaz gráfica de usuario con aprendizaje de refuerzo multiturno

Created by
  • Haebom

Autor

Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Aoyan Li, Bo Li, Chen Dun, Chong Liu, Daoguang Zan, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Shulin Xin, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi

Describir

UI-TARS-2 es un modelo de agente autónomo para interfaces gráficas de usuario (GUI). Presenta una metodología de entrenamiento sistemático para abordar problemas como la escalabilidad de datos, el aprendizaje por refuerzo (RL) multilapso, las limitaciones del funcionamiento exclusivo de la GUI y la estabilidad del entorno. Esta metodología consta de un volante de inercia de datos para la generación escalable de datos, un marco de RL multilapso estabilizado, un entorno de GUI híbrido que integra un sistema de archivos y una terminal, y una plataforma de entorno de pruebas integrada para la implementación a gran escala. Los resultados experimentales demuestran que UI-TARS-2 mejora significativamente el rendimiento en comparación con su predecesor, UI-TARS-1.5, logrando un rendimiento competitivo en diversas pruebas de rendimiento de GUI, entornos de juego, tareas de exploración de información y pruebas de rendimiento de ingeniería de software.

Takeaways, Limitations

Takeaways:
Proporciona información sobre cómo lograr estabilidad y eficiencia en el RL del agente GUI a gran escala.
Demuestra una fuerte capacidad de generalización en una variedad de tareas de agentes.
Contribuye al avance de los agentes GUI y demuestra su capacidad para generalizarse a escenarios de interacción del mundo real.
Supera a los modelos existentes (Claude, agentes OpenAI, etc.) en varios puntos de referencia de GUI, incluidos Online-Mind2Web, OSWorld, WindowsAgentArena y AndroidWorld.
Demostró un rendimiento que alcanza aproximadamente el 60% del rendimiento a nivel humano en un entorno de juego, lo que lo hace competitivo con los modelos propietarios de última generación.
También ha demostrado capacidades de generalización en tareas de exploración de información a largo plazo y en pruebas de ingeniería de software.
Limitations:
Este artículo no menciona explícitamente el Limitations específico. Sería necesario realizar más investigaciones para mejorarlo.
👍