Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MagicGUI: Một tác nhân GUI di động cơ bản với đường ống dữ liệu có khả năng mở rộng và tinh chỉnh tăng cường

Created by
  • Haebom

Tác giả

Liujian Tang, Shaokang Dong, Yijia Huang, Minqi Xiang, Hongtao Ruan, Bin Wang, Shuo Li, Zhiheng Xi, Zhihui Cao, Hailiang Pang, Heng Kong, He Yang, Mingxu Chai, Zhilin Gao, Xingyu Liu, Yingnan Fu, Jiaming Liu, Huyền Cảnh Hoàng, Yu-Gang Jiang, Tao Gui, Qi Zhang, Kang Wang, Yunke Zhang, Yuran Wang

Phác thảo

MagicGUI là một tác nhân GUI di động cơ bản được thiết kế để giải quyết những thách thức quan trọng về nhận thức, xây dựng nền tảng và lập luận trong môi trường GUI di động thế giới thực. MagicGUI được xây dựng trên sáu thành phần chính: (1) một tập dữ liệu toàn diện và chính xác được xây dựng thông qua đường ống dữ liệu GUI có thể mở rộng (dữ liệu đa phương thức tập trung vào GUI lớn nhất và đa dạng nhất được thu thập từ các kho lưu trữ nguồn mở, thu thập thông tin tự động và chú thích thủ công có mục tiêu); (2) khả năng xây dựng nền tảng và nhận thức được nâng cao giúp tạo điều kiện cho việc căn chỉnh đa phương thức chi tiết để tham chiếu thành phần UI, xây dựng nền tảng và hiểu màn hình; (3) một không gian hành động toàn diện và thống nhất bao gồm cả các tác vụ UI cơ bản và các ý định tương tác phức tạp; (4) một cơ chế suy luận theo kế hoạch có thể phân tích các hướng dẫn người dùng phức tạp thành các hành động tuần tự bằng cách sử dụng suy luận lập kế hoạch siêu trung gian rõ ràng; (5) một quy trình đào tạo hai giai đoạn lặp lại kết hợp đào tạo trước liên tục quy mô lớn trên 7,8 triệu mẫu với tinh chỉnh học tăng cường sử dụng phần thưởng hợp chất được tăng cường theo không gian và các chiến lược lọc kép; và (6) đạt được hiệu suất cạnh tranh trên chuẩn mực Magic-RICH độc quyền và hơn chục chuẩn mực công khai, thể hiện hiệu suất vượt trội trên nhận thức GUI và các tác vụ của tác nhân, đồng thời thể hiện khả năng tổng quát hóa mạnh mẽ và khả năng triển khai trong thế giới thực trong các tình huống GUI di động thực tế, như được trình bày chi tiết trong Hình 1.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để giải quyết các vấn đề về nhận thức, xây dựng nền tảng và suy luận trong môi trường GUI di động thực tế.
Hiệu suất mạnh mẽ tận dụng các tập dữ liệu GUI đa chế độ lớn.
Khả năng thực hiện các nhiệm vụ phức tạp thông qua cơ chế suy luận theo kế hoạch.
Hiệu suất khái quát tuyệt vời chứng minh khả năng triển khai trong môi trường thực tế.
Limitations:
Thiếu mô tả chi tiết về hiệu suất của chuẩn mực Magic-RICH độc quyền.
Những hạn chế có thể có của hiệu suất tổng quát trên nhiều môi trường GUI di động khác nhau.
Cần phải xác nhận thêm để chứng minh khả năng ứng phó với những tình huống bất ngờ có thể phát sinh trong các ứng dụng thực tế.
Thiếu thảo luận cụ thể về khả năng mở rộng và khả năng bảo trì của đường ống dữ liệu.
👍