Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

OpenCUA: Nền tảng mở cho các tác nhân sử dụng máy tính

Created by
  • Haebom

Tác giả

Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Chu, Haotian Yao, Ziwei Chen, Qizheng Gu, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu

Phác thảo

Bài báo này đề xuất OpenCUA, một khuôn khổ mã nguồn mở nhằm nâng cao tiềm năng và khả năng tiếp cận của các tác nhân hỗ trợ máy tính (CUA). OpenCUA bao gồm một cơ sở hạ tầng chú thích ghi lại các thao tác được máy tính hỗ trợ của con người; AgentNet, một bộ dữ liệu tác vụ được máy tính hỗ trợ quy mô lớn trải rộng trên ba hệ điều hành và hơn 200 ứng dụng và trang web; và một quy trình có thể mở rộng giúp chuyển đổi các thao tác này thành các cặp trạng thái-hành động. Mô hình OpenCUA-32B đạt tỷ lệ thành công 34,8% trong bài kiểm tra chuẩn OSWorld-Verified, đạt hiệu suất cao nhất trong số các mô hình mã nguồn mở và vượt trội hơn OpenAI CUA (GPT-4o). Nghiên cứu này đặt nền móng cho nghiên cứu CUA bằng cách phát hành các công cụ chú thích, bộ dữ liệu, mã và mô hình.

Takeaways, Limitations

Takeaways:
Thúc đẩy và cải thiện khả năng tiếp cận nghiên cứu CUA bằng cách cung cấp khuôn khổ CUA nguồn mở.
Phát hành AgentNet, một bộ dữ liệu tác vụ dựa trên máy tính quy mô lớn.
Khắc phục những hạn chế về hiệu suất của các mô hình nguồn mở với mô hình OpenCUA-32B.
Xác minh hiệu suất tổng quát trên nhiều miền khác nhau và cải thiện hiệu suất nhờ tăng thời gian tính toán thử nghiệm.
Limitations:
Hiệu suất hiện tại vẫn chưa hoàn hảo (tỷ lệ thành công 34,8%) và cần nghiên cứu thêm để đạt được hiệu suất cao hơn.
Có thể cần có những cải tiến hơn nữa để tăng phạm vi và tính đa dạng của tập dữ liệu AgentNet.
Có thể có sự thiên vị đối với các hệ điều hành và ứng dụng cụ thể.
👍