Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SEAgent: Đại lý sử dụng máy tính tự phát triển với khả năng học tập tự động từ kinh nghiệm

Created by
  • Haebom

Tác giả

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

Phác thảo

Bài báo này đề xuất SEAgent, một khuôn khổ cho các tác nhân hỗ trợ máy tính (CUA) có khả năng học và phát triển tự động trong các môi trường phần mềm mới mà không cần sự can thiệp của con người. Dựa trên các mô hình ngôn ngữ thị giác quy mô lớn (LVLM), SEAgent học phần mềm mới thông qua phương pháp học trải nghiệm thử và sai. Nó học bằng cách thực hiện các tác vụ được tạo tự động, tiến triển từ đơn giản đến phức tạp, sử dụng Mô hình trạng thái thế giới để đánh giá lộ trình từng bước chi tiết và Trình tạo chương trình giảng dạy để tạo ra các tác vụ ngày càng đa dạng và đầy thử thách. Chính sách của tác nhân được cập nhật thông qua việc bắt chước đối kháng đối với các hành động thất bại và Tối ưu hóa chính sách tương đối nhóm (GRPO) đối với các hành động thành công. Hơn nữa, chúng tôi phát triển một CUA tổng quát mạnh mẽ có khả năng tiến hóa tự động liên tục thông qua chiến lược tổng quát hóa của chuyên gia, tích hợp các hiểu biết thực nghiệm của các tác nhân chuyên biệt. Chúng tôi xác thực hiệu quả của SEAgent trên năm môi trường phần mềm mới trong OS-World, cải thiện tỷ lệ thành công thêm 23,2% (từ 11,3% lên 34,5%) so với UI-TARS, một CUA nguồn mở hiện có.

Takeaways, Limitations

Takeaways:
Thể hiện tiềm năng của CUA trong việc học hỏi và thích ứng với phần mềm mới mà không cần sự can thiệp của con người.
Cung cấp các chiến lược học tập hiệu quả thông qua học tập trải nghiệm và Curriculum Generator.
ĐạT được cải thiện hiệu suất CUA chung thông qua các chiến lược khái quát của chuyên gia.
ĐạT được cải tiến hiệu suất đáng kể so với CUA hiện tại.
Limitations:
Vì nó chỉ được xác thực trong một môi trường cụ thể gọi là OS-World nên cần nghiên cứu thêm để xác định khả năng tổng quát hóa của nó.
Cần phải xác thực hiệu suất bổ sung trong môi trường phần mềm phức tạp, thực tế.
Có khả năng thiết kế của Mô hình Nhà nước Thế giới và Trình tạo Chương trình giảng dạy được tối ưu hóa cho một môi trường cụ thể.
Cần phải phân tích thêm để giải quyết khả năng không thể đoán trước có thể phát sinh trong quá trình học của tác nhân.
👍