Bài báo này đề cập đến vấn đề mô hình hóa dựa trên truy vấn ngôn ngữ tự nhiên trong giao diện người dùng đồ họa (GUI), vốn thường gặp phải nhiều yếu tố hình ảnh, sự lộn xộn về không gian và sự mơ hồ về ngôn ngữ. Chúng tôi trình bày một khung dựa trên GUI không cần đào tạo, DiMo-GUI, tận dụng hai chiến lược cốt lõi: tối ưu hóa động dựa trên hình ảnh và nhận biết phương thức. Thay vì xử lý GUI dưới dạng một hình ảnh duy nhất, dữ liệu đầu vào được chia thành các yếu tố văn bản và biểu tượng, và một mô hình ngôn ngữ thị giác chung được sử dụng để suy ra từng phương thức một cách độc lập. Khi dự đoán không rõ ràng hoặc không chính xác, DiMo-GUI sẽ tự động tập trung sự chú ý bằng cách tạo ra các vùng tập trung ứng viên tập trung vào dự đoán ban đầu của mô hình và dần dần mở rộng thành các vùng con để cải thiện kết quả cơ bản. Quy trình tinh chỉnh phân cấp này giúp giải quyết sự mơ hồ trong các bố cục trực quan lộn xộn mà không cần đào tạo hoặc chú thích bổ sung. Chúng tôi đánh giá phương pháp của mình trên các điểm chuẩn dựa trên GUI tiêu chuẩn và chứng minh những cải tiến nhất quán so với các quy trình suy luận cơ sở, làm nổi bật hiệu quả của việc kết hợp phân tách phương thức và suy luận lấy vùng làm trung tâm.