Bài báo này đề xuất SEAgent, một khuôn khổ cho các tác nhân hỗ trợ máy tính (CUA) có khả năng học và phát triển tự động trong các môi trường phần mềm mới mà không cần sự can thiệp của con người. Dựa trên các mô hình ngôn ngữ thị giác quy mô lớn (LVLM), SEAgent học phần mềm mới thông qua phương pháp học trải nghiệm thử và sai. Nó học bằng cách thực hiện các tác vụ được tạo tự động, tiến triển từ đơn giản đến phức tạp, sử dụng Mô hình trạng thái thế giới để đánh giá lộ trình từng bước chi tiết và Trình tạo chương trình giảng dạy để tạo ra các tác vụ ngày càng đa dạng và đầy thử thách. Chính sách của tác nhân được cập nhật thông qua việc bắt chước đối kháng đối với các hành động thất bại và Tối ưu hóa chính sách tương đối nhóm (GRPO) đối với các hành động thành công. Hơn nữa, chúng tôi phát triển một CUA tổng quát mạnh mẽ có khả năng tiến hóa tự động liên tục thông qua chiến lược tổng quát hóa của chuyên gia, tích hợp các hiểu biết thực nghiệm của các tác nhân chuyên biệt. Chúng tôi xác thực hiệu quả của SEAgent trên năm môi trường phần mềm mới trong OS-World, cải thiện tỷ lệ thành công thêm 23,2% (từ 11,3% lên 34,5%) so với UI-TARS, một CUA nguồn mở hiện có.