Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

Created by
  • Haebom

저자

Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Aoyan Li, Bo Li, Chen Dun, Chong Liu, Daoguang Zan, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Shulin Xin, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qi Liu, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Yaohui Wang, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Qihua Han, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi

개요

UI-TARS-2는 그래픽 사용자 인터페이스(GUI)를 위한 자율 에이전트 모델로, 데이터 확장성, 다회차 강화 학습(RL), GUI 전용 작동의 한계, 환경 안정성 등의 문제를 해결하기 위해 체계적인 훈련 방법론을 제시합니다. 이 방법론은 확장 가능한 데이터 생성을 위한 데이터 플라이휠, 안정화된 다회차 RL 프레임워크, 파일 시스템과 터미널을 통합한 하이브리드 GUI 환경, 대규모 전개를 위한 통합 샌드박스 플랫폼으로 구성됩니다. 실험 결과, UI-TARS-2는 이전 버전인 UI-TARS-1.5보다 상당한 성능 향상을 보였으며, 다양한 GUI 벤치마크와 게임 환경, 정보 탐색 작업, 소프트웨어 엔지니어링 벤치마크에서 경쟁력 있는 성능을 달성했습니다.

시사점, 한계점

시사점:
대규모 GUI 에이전트 RL에서 안정성과 효율성을 달성하는 데 대한 통찰력을 제공합니다.
다양한 에이전트 작업에서 강력한 일반화 능력을 보여줍니다.
GUI 에이전트의 발전에 기여하고 실제 상호 작용 시나리오에 대한 일반화 능력을 보여줍니다.
Online-Mind2Web, OSWorld, WindowsAgentArena, AndroidWorld 등 다양한 GUI 벤치마크에서 기존 모델(Claude, OpenAI 에이전트 등)을 능가하는 성능을 달성했습니다.
게임 환경에서 인간 수준 성능의 약 60%에 달하는 성능을 보였으며, 최첨단 독점 모델과 경쟁력을 갖췄습니다.
장기간 정보 탐색 작업과 소프트웨어 엔지니어링 벤치마크에서도 일반화 능력을 보였습니다.
한계점:
본 논문에서는 구체적인 한계점이 명시적으로 언급되지 않았습니다. 향후 연구를 통해 추가적인 개선이 필요할 수 있습니다.
👍