Bài báo này đề xuất NaturalGAIA, một chuẩn mực mới dựa trên nguyên lý đường dẫn nhân quả (CPA), nhằm giải quyết các hạn chế về độ chính xác, khả năng tái tạo và khả năng mở rộng của các chuẩn mực đánh giá hiện có, vốn cản trở sự phát triển của các tác nhân giao diện người dùng đồ họa (GUI) dựa trên mô hình ngôn ngữ quy mô lớn (LLM). NaturalGAIA cung cấp các tiêu chí đánh giá nghiêm ngặt, hoàn toàn tự động và có thể tái tạo bằng cách cấu trúc các tác vụ phức tạp thành một loạt các bước nguyên tử, có thể kiểm chứng bằng chương trình. Hơn nữa, để giảm thiểu các lỗi chức năng vốn có của các tác nhân, chúng tôi phát triển LightManus, một kiến trúc tác nhân phân cấp được tối ưu hóa cho các tác vụ dài hạn. Kiến trúc này được sử dụng để tạo ra một tập dữ liệu chất lượng cao đã được con người xác thực, nắm bắt các mẫu tương tác đa dạng và tự hiệu chỉnh của các LLM. Sử dụng tập dữ liệu này, chúng tôi thực hiện Tinh chỉnh Học tăng cường (RFT) trên mô hình Qwen2.5-VL-7B. Kết quả thử nghiệm cho thấy NaturalGAIA đặt ra những thách thức đáng kể ngay cả với các LLM tiên tiến, với mô hình hiệu suất cao nhất, Claude-sonnet-4, chỉ đạt tỷ lệ thành công đường dẫn có trọng số (WPSR) là 34,6%. Mặc dù RFT cải thiện khả năng thực thi GUI của các mô hình nhỏ (WPSR tăng từ 3,3% lên 10,8%), hiệu suất lại giảm đáng kể trong các tình huống phức tạp, cho thấy những hạn chế về hiệu suất vốn có của các mô hình nhỏ khi phải đối mặt với các tác vụ toàn diện tích hợp nhận thức, ra quyết định và thực thi. Nghiên cứu này cung cấp các tiêu chí đánh giá nghiêm ngặt và một bộ dữ liệu chất lượng cao, đưa ra định hướng cho việc phát triển các tác nhân GUI trong tương lai.