Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

Created by
  • Haebom

作者

Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Long, Zhiyong Long, Daoguang Zan, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Shulin Xin, Way Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Liu, Songhua Cai, Wenqi Fu, Xin Liu, Yaohui Wang, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Qihua Han, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yumia Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meil​​an Han, Minchao Wang, Shuyue Guo, Tianhao Chia Xia, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi

概要

UI-TARS-2はグラフィカルユーザーインターフェース(GUI)のための自律エージェントモデルであり、データスケーラビリティ、多重強化学習(RL)、GUI専用操作の制限、環境安定性などの問題を解決するための体系的なトレーニング方法論を提示します。この方法論は、スケーラブルなデータを生成するためのデータフライホイール、安定化された多階層のRLフレームワーク、ファイルシステムとターミナルを統合したハイブリッドGUI環境、および大規模展開のための統合サンドボックスプラットフォームで構成されています。実験の結果、UI-TARS-2は以前のバージョンのUI-TARS-1.5よりも大幅なパフォーマンス向上を示し、さまざまなGUIベンチマークとゲーム環境、情報ナビゲーション作業、ソフトウェアエンジニアリングベンチマークで競争力のあるパフォーマンスを達成しました。

Takeaways、Limitations

Takeaways:
大規模なGUIエージェントRLで安定性と効率性を達成するための洞察を提供します。
さまざまなエージェント操作で強力な一般化能力を示します。
GUIエージェントの発展に貢献し、実際の対話シナリオの一般化能力を示しています。
Online-Mind2Web、OSWorld、WindowsAgentArena、AndroidWorldなど、さまざまなGUIベンチマークで既存のモデル(Claude、OpenAIエージェントなど)を上回るパフォーマンスを達成しました。
ゲーム環境で人間レベルの性能の約60%に達する性能を見せ、最先端の独占モデルと競争力を備えています。
長期情報ナビゲーション作業とソフトウェアエンジニアリングベンチマークでも一般化能力を見せました。
Limitations:
本稿では具体的なLimitationsを明示的に述べていない。今後の研究では、さらなる改善が必要になる可能性があります。
👍