Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Rapport technique UI-TARS-2 : Amélioration de l'agent GUI grâce à l'apprentissage par renforcement multi-tours

Created by
  • Haebom

Auteur

Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Aoyan Li, Bo Li, Chen Dun, Chong Liu, Daoguang Zan, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Shulin Xin, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi

Contour

UI-TARS-2 est un modèle d'agent autonome pour interfaces utilisateur graphiques (IUG). Il propose une méthodologie d'apprentissage systématique pour répondre à des problématiques telles que l'évolutivité des données, l'apprentissage par renforcement (RL) multi-lapses, les limites du fonctionnement en mode GUI et la stabilité environnementale. Cette méthodologie comprend un volant d'inertie pour la génération de données évolutives, un framework RL multi-lapses stabilisé, un environnement IUG hybride intégrant un système de fichiers et un terminal, et une plateforme sandbox intégrée pour un déploiement à grande échelle. Les résultats expérimentaux démontrent qu'UI-TARS-2 améliore significativement les performances par rapport à son prédécesseur, UI-TARS-1.5, atteignant des performances compétitives dans divers benchmarks d'IUG, environnements de jeu, tâches d'exploration d'informations et benchmarks d'ingénierie logicielle.

Takeaways, Limitations

Takeaways:
Fournit des informations sur la manière d'atteindre la stabilité et l'efficacité dans l'agent GUI RL à grande échelle.
Il démontre une forte capacité de généralisation à travers une variété de tâches d’agent.
Il contribue à l’avancement des agents GUI et démontre leur capacité à se généraliser à des scénarios d’interaction du monde réel.
Il surpasse les modèles existants (Claude, agents OpenAI, etc.) sur divers benchmarks d'interface graphique, notamment Online-Mind2Web, OSWorld, WindowsAgentArena et AndroidWorld.
Il a démontré des performances atteignant environ 60 % des performances de niveau humain dans un environnement de jeu, ce qui le rend compétitif avec les modèles propriétaires de pointe.
Il a également démontré des capacités de généralisation dans des tâches d’exploration d’informations à long terme et des tests de référence en ingénierie logicielle.
Limitations:
Le Limitations spécifique n'est pas explicitement mentionné dans cet article. Des améliorations pourraient être nécessaires grâce à des recherches futures.
👍