Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

NatureGAIA: Đẩy mạnh ranh giới của các tác nhân GUI với chuẩn mực đầy thách thức và bộ dữ liệu quỹ đạo chất lượng cao

Created by
  • Haebom

Tác giả

Zihan Zheng, Tianle Cui, Chuwen Xie, Jiahui Zhang, Jiahui Pan, Lewei He, Qianglong Chen

Phác thảo

Bài báo này đề xuất NaturalGAIA, một chuẩn mực mới dựa trên nguyên lý đường dẫn nhân quả (CPA), nhằm giải quyết các hạn chế về độ chính xác, khả năng tái tạo và khả năng mở rộng của các chuẩn mực đánh giá hiện có, vốn cản trở sự phát triển của các tác nhân giao diện người dùng đồ họa (GUI) dựa trên mô hình ngôn ngữ quy mô lớn (LLM). NaturalGAIA cung cấp các tiêu chí đánh giá nghiêm ngặt, hoàn toàn tự động và có thể tái tạo bằng cách cấu trúc các tác vụ phức tạp thành một loạt các bước nguyên tử, có thể kiểm chứng bằng chương trình. Hơn nữa, để giảm thiểu các lỗi chức năng vốn có của các tác nhân, chúng tôi phát triển LightManus, một kiến trúc tác nhân phân cấp được tối ưu hóa cho các tác vụ dài hạn. Kiến trúc này được sử dụng để tạo ra một tập dữ liệu chất lượng cao đã được con người xác thực, nắm bắt các mẫu tương tác đa dạng và tự hiệu chỉnh của các LLM. Sử dụng tập dữ liệu này, chúng tôi thực hiện Tinh chỉnh Học tăng cường (RFT) trên mô hình Qwen2.5-VL-7B. Kết quả thử nghiệm cho thấy NaturalGAIA đặt ra những thách thức đáng kể ngay cả với các LLM tiên tiến, với mô hình hiệu suất cao nhất, Claude-sonnet-4, chỉ đạt tỷ lệ thành công đường dẫn có trọng số (WPSR) là 34,6%. Mặc dù RFT cải thiện khả năng thực thi GUI của các mô hình nhỏ (WPSR tăng từ 3,3% lên 10,8%), hiệu suất lại giảm đáng kể trong các tình huống phức tạp, cho thấy những hạn chế về hiệu suất vốn có của các mô hình nhỏ khi phải đối mặt với các tác vụ toàn diện tích hợp nhận thức, ra quyết định và thực thi. Nghiên cứu này cung cấp các tiêu chí đánh giá nghiêm ngặt và một bộ dữ liệu chất lượng cao, đưa ra định hướng cho việc phát triển các tác nhân GUI trong tương lai.

Takeaways, Limitations

Takeaways:
Chúng tôi xin giới thiệu NaturalGAIA, một chuẩn mực mới nghiêm ngặt và có thể tái tạo để đánh giá các tác nhân GUI dựa trên LLM.
Phát triển LightManus, một kiến trúc tác nhân phân cấp được tối ưu hóa cho các tác vụ dài hạn và tạo ra các tập dữ liệu chất lượng cao.
Thực nghiệm chứng minh hiệu quả và hạn chế của RFT trong việc cải thiện khả năng thực thi GUI của LLM.
Cung cấp đánh giá thực tế về khả năng hiệu suất GUI của các LLM hiện đại.
Limitations:
Cần nghiên cứu thêm về khả năng mở rộng và khả năng khái quát hóa của chuẩn mực NaturalGAIA.
Cần phân tích sâu hơn để hiểu lý do tại sao hiệu quả của RFT thay đổi đáng kể tùy theo quy mô mô hình.
Tiêu chuẩn cần được mở rộng để bao quát nhiều tác vụ GUI phức tạp và đa dạng hơn.
Khả năng khái quát hóa của kiến trúc LightManus cho các LLM và nhiệm vụ khác cần được xác minh.
👍