Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

DiMo-GUI: Nâng cao khả năng mở rộng thời gian kiểm tra trong GUI Grounding thông qua lý luận trực quan nhận biết phương thức

Created by
  • Haebom

Tác giả

Hang Wu, Hongkai Chen, Yujun Cai, Chang Liu, Qingwen Ye, Ming-Hsuan Yang, Yiwei Wang

Phác thảo

Bài báo này đề cập đến vấn đề mô hình hóa dựa trên truy vấn ngôn ngữ tự nhiên trong giao diện người dùng đồ họa (GUI), vốn thường gặp phải nhiều yếu tố hình ảnh, sự lộn xộn về không gian và sự mơ hồ về ngôn ngữ. Chúng tôi trình bày một khung dựa trên GUI không cần đào tạo, DiMo-GUI, tận dụng hai chiến lược cốt lõi: tối ưu hóa động dựa trên hình ảnh và nhận biết phương thức. Thay vì xử lý GUI dưới dạng một hình ảnh duy nhất, dữ liệu đầu vào được chia thành các yếu tố văn bản và biểu tượng, và một mô hình ngôn ngữ thị giác chung được sử dụng để suy ra từng phương thức một cách độc lập. Khi dự đoán không rõ ràng hoặc không chính xác, DiMo-GUI sẽ tự động tập trung sự chú ý bằng cách tạo ra các vùng tập trung ứng viên tập trung vào dự đoán ban đầu của mô hình và dần dần mở rộng thành các vùng con để cải thiện kết quả cơ bản. Quy trình tinh chỉnh phân cấp này giúp giải quyết sự mơ hồ trong các bố cục trực quan lộn xộn mà không cần đào tạo hoặc chú thích bổ sung. Chúng tôi đánh giá phương pháp của mình trên các điểm chuẩn dựa trên GUI tiêu chuẩn và chứng minh những cải tiến nhất quán so với các quy trình suy luận cơ sở, làm nổi bật hiệu quả của việc kết hợp phân tách phương thức và suy luận lấy vùng làm trung tâm.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ dựa trên GUI không yêu cầu phải học, giúp giảm chi phí thu thập và chú thích dữ liệu.
Bằng cách kết hợp phân tách phương thức và suy luận theo miền, chúng ta có thể xử lý hiệu quả các truy vấn ngôn ngữ tự nhiên ngay cả trong GUI có giao diện phức tạp.
Chúng tôi chứng minh bằng thực nghiệm rằng nó cải thiện hiệu suất so với các quy trình suy luận hiện có.
Limitations:
Cần nghiên cứu thêm để xác định hiệu suất tổng quát của phương pháp đề xuất. Độ bền của phương pháp này đối với nhiều thiết kế GUI và độ phức tạp khác nhau cần được kiểm chứng thêm.
Hiệu suất có thể giảm đối với một số loại GUI hoặc truy vấn nhất định. Cần thử nghiệm rộng rãi hơn để hiểu rõ hơn về _____T43596____-.
Cần phân tích thêm về hiệu suất và hiệu quả xử lý đối với GUI phức tạp hoặc truy vấn mơ hồ.
👍