Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Báo cáo kỹ thuật UI-TARS-2: Nâng cao tác nhân GUI với học tăng cường nhiều vòng

Created by
  • Haebom

Tác giả

Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Aoyan Li, Bo Li, Chen Dun, Chong Liu, Daoguang Zan, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Shulin Xin, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Triệu, Quảng Thạch

Phác thảo

UI-TARS-2 là một mô hình tác tử tự động dành cho giao diện người dùng đồ họa (GUI). Nó trình bày một phương pháp huấn luyện có hệ thống để giải quyết các vấn đề như khả năng mở rộng dữ liệu, học tăng cường (RL) nhiều lần lặp lại, những hạn chế của hoạt động chỉ với GUI và tính ổn định của môi trường. Phương pháp này bao gồm một bánh đà dữ liệu để tạo dữ liệu có khả năng mở rộng, một khung RL nhiều lần lặp lại ổn định, một môi trường GUI lai tích hợp hệ thống tệp và thiết bị đầu cuối, và một nền tảng hộp cát tích hợp để triển khai quy mô lớn. Kết quả thử nghiệm chứng minh rằng UI-TARS-2 cải thiện đáng kể hiệu suất so với phiên bản tiền nhiệm UI-TARS-1.5, đạt được hiệu suất cạnh tranh trên nhiều tiêu chuẩn GUI, môi trường trò chơi, tác vụ khám phá thông tin và tiêu chuẩn kỹ thuật phần mềm.

Takeaways, Limitations

Takeaways:
Cung cấp thông tin chi tiết về cách đạt được tính ổn định và hiệu quả trong tác nhân GUI RL quy mô lớn.
Nó thể hiện khả năng khái quát mạnh mẽ trên nhiều nhiệm vụ của tác nhân.
Nó góp phần vào sự phát triển của các tác nhân GUI và chứng minh khả năng khái quát hóa các tình huống tương tác trong thế giới thực.
Nó vượt trội hơn các mô hình hiện có (Claude, tác nhân OpenAI, v.v.) trên nhiều tiêu chuẩn GUI khác nhau, bao gồm Online-Mind2Web, OSWorld, WindowsAgentArena và AndroidWorld.
Sản phẩm đã chứng minh được hiệu suất đạt khoảng 60% hiệu suất của con người trong môi trường chơi game, đủ sức cạnh tranh với các mẫu máy độc quyền tiên tiến.
Nó cũng đã chứng minh được khả năng khái quát hóa trong các nhiệm vụ khám phá thông tin dài hạn và các tiêu chuẩn kỹ thuật phần mềm.
Limitations:
Mã Limitations cụ thể không được đề cập rõ ràng trong bài báo này. Có thể cần cải thiện thêm thông qua các nghiên cứu trong tương lai.
👍