यह शोधपत्र विज़न लैंग्वेज मॉडल्स (VLMs) के लिए प्रभावी इमेज रीजन इन्फ़रेंस की समस्या के समाधान हेतु LASER फ्रेमवर्क का प्रस्ताव करता है, जो उच्च-रिज़ॉल्यूशन इनपुट्स और जटिल बहु-तत्व विज़ुअल इंटरैक्शन के अंतर्गत GUI ग्राउंडिंग कार्यों में एक प्रमुख चुनौती है। LASER, मोंटे कार्लो गुणवत्ता आकलन और IoU-आधारित क्षेत्र गुणवत्ता आकलन को एकीकृत करके VLMs को बहु-स्तरीय अवधारणात्मक क्षमताओं से उत्तरोत्तर सशक्त बनाता है, जिससे सटीकता और विविधता दोनों में सुधार होता है और सटीक निर्देशांक भविष्यवाणी संभव होती है। यह मॉडल को निर्देशों से संबंधित प्रमुख क्षेत्रों पर ध्यान केंद्रित करने और कार्य की जटिलता के आधार पर अनुमान चरणों को अनुकूल रूप से आवंटित करने की अनुमति देता है। ScreenSpot Pro और ScreenSpot-v2 बेंचमार्क पर प्रायोगिक परिणाम LASER की प्रभावशीलता को दर्शाते हैं, और 7B-स्केल मॉडल्स के बीच इसके प्रदर्शन को प्रदर्शित करते हैं। विशेष रूप से, GTA1-7B पर परिशोधित LASER ने ScreenSpot-Pro बेंचमार्क पर 55.7 अंक प्राप्त किए।