Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tiến bộ của các tác nhân GUI di động: Một cách tiếp cận dựa trên trình xác minh để triển khai thực tế

Created by
  • Haebom

Tác giả

Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu

Phác thảo

V-Droid là một tác nhân tự động hóa tác vụ GUI di động. Không giống như các LLM truyền thống tạo trực tiếp hành động cho từng bước, V-Droid sử dụng LLM làm công cụ xác minh để đánh giá các hành động ứng viên. Để đạt được điều này, chúng tôi trình bày một khuôn khổ toàn diện bao gồm quy trình làm việc chuyên dụng để xây dựng và điền trước một không gian hành động rời rạc, học tập ưu tiên tiến trình tương tác và một lược đồ chú thích chung giữa người và tác nhân có thể mở rộng. Trên nhiều điểm chuẩn tự động hóa tác vụ di động, bao gồm AndroidWorld, AndroidLab và MobileAgentBench, V-Droid đạt tỷ lệ thành công cao hơn (lần lượt là 59,5%, 38,3% và 49%) và tốc độ xử lý nhanh hơn đáng kể (4,3 giây mỗi bước, nhanh hơn 6,1 lần so với các tác nhân hiện có). Mã nguồn có sẵn trên GitHub.

Takeaways, Limitations

Takeaways:
Một mô hình tác nhân di động mới sử dụng LLM làm công cụ xác minh được trình bày.
ĐạT được tỷ lệ thành công cao hơn trong nhiệm vụ và độ trễ thấp hơn so với các tác nhân hiện có.
Đề Xuất một phương pháp chú thích cộng tác có khả năng mở rộng để thu thập dữ liệu hiệu quả
Tăng khả năng tái tạo nghiên cứu và tiềm năng phát triển thông qua việc công bố nguồn mở.
Limitations:
Chỉ có kết quả đánh giá hiệu suất cho các chuẩn mực cụ thể được trình bày, đòi hỏi phải nghiên cứu thêm về khả năng khái quát hóa.
Thiếu phân tích chi tiết về hiệu suất của người xác minh
Cần phải xác nhận thêm để có thể áp dụng cho nhiều loại tác vụ di động khác nhau.
👍