Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Học nhận thức chủ động thông qua tối ưu hóa sở thích tự phát triển để xây dựng nền tảng GUI

Created by
  • Haebom

Tác giả

Wanfu Wang, Qipeng Huang, Guanquan Xue, Xiaobo Liang, Juntao Li

Phác thảo

Bài báo này đề xuất khuôn khổ LASER để giải quyết vấn đề suy luận vùng ảnh hiệu quả cho Mô hình ngôn ngữ thị giác (VLM), một thách thức quan trọng trong các tác vụ nền tảng GUI dưới các đầu vào có độ phân giải cao và tương tác thị giác đa yếu tố phức tạp. LASER tích hợp ước tính chất lượng Monte Carlo và đánh giá chất lượng vùng dựa trên IoU để dần trao quyền cho VLM với khả năng nhận thức đa cấp giúp cải thiện cả độ chính xác và tính đa dạng, cho phép dự đoán tọa độ chính xác. Điều này cho phép mô hình tập trung vào các vùng chính liên quan đến các lệnh và phân bổ các bước suy luận một cách thích ứng dựa trên độ phức tạp của tác vụ. Kết quả thử nghiệm trên các điểm chuẩn ScreenSpot Pro và ScreenSpot-v2 chứng minh tính hiệu quả của LASER, thể hiện hiệu suất của nó trong số các mô hình tỷ lệ 7B. Cụ thể, LASER, được tinh chỉnh trên GTA1-7B, đạt điểm 55,7 trên điểm chuẩn ScreenSpot-Pro.

Takeaways, Limitations

Takeaways:
Một khuôn khổ hiệu quả để cải thiện khả năng nhận thức đa cấp của VLM (LASER)
Cải thiện độ chính xác và tính đa dạng bằng cách kết hợp ước tính chất lượng Monte Carlo và đánh giá dựa trên IoU.
Cải thiện hiệu suất tiếp địa GUI khi nhập dữ liệu có độ phân giải cao và tương tác trực quan phức tạp.
ĐạT được hiệu suất đỉnh cao mới trong các mô hình quy mô 7B
Limitations:
Những cải tiến về hiệu suất của LASER có thể bị giới hạn ở một số tiêu chuẩn cụ thể (ScreenSpot Pro, ScreenSpot-v2).
Cần phải xác thực thêm hiệu suất tổng quát trên nhiều loại GUI và tác vụ khác nhau.
Cần phải phân tích chi phí tính toán và hiệu quả.
👍