Bài báo này đề xuất khuôn khổ LASER để giải quyết vấn đề suy luận vùng ảnh hiệu quả cho Mô hình ngôn ngữ thị giác (VLM), một thách thức quan trọng trong các tác vụ nền tảng GUI dưới các đầu vào có độ phân giải cao và tương tác thị giác đa yếu tố phức tạp. LASER tích hợp ước tính chất lượng Monte Carlo và đánh giá chất lượng vùng dựa trên IoU để dần trao quyền cho VLM với khả năng nhận thức đa cấp giúp cải thiện cả độ chính xác và tính đa dạng, cho phép dự đoán tọa độ chính xác. Điều này cho phép mô hình tập trung vào các vùng chính liên quan đến các lệnh và phân bổ các bước suy luận một cách thích ứng dựa trên độ phức tạp của tác vụ. Kết quả thử nghiệm trên các điểm chuẩn ScreenSpot Pro và ScreenSpot-v2 chứng minh tính hiệu quả của LASER, thể hiện hiệu suất của nó trong số các mô hình tỷ lệ 7B. Cụ thể, LASER, được tinh chỉnh trên GTA1-7B, đạt điểm 55,7 trên điểm chuẩn ScreenSpot-Pro.