Cet article propose le cadre LASER pour résoudre le problème de l'inférence efficace des régions d'image pour les modèles de langage visuel (MLV), un défi majeur dans les tâches de mise à la terre des interfaces graphiques (GUI) sous des entrées haute résolution et des interactions visuelles multi-éléments complexes. LASER intègre l'estimation de la qualité Monte Carlo et l'évaluation de la qualité des régions basée sur l'IoU pour doter progressivement les MLB de capacités perceptuelles multi-niveaux qui améliorent à la fois la précision et la diversité, permettant une prédiction précise des coordonnées. Cela permet au modèle de se concentrer sur les régions clés pertinentes pour les instructions et d'allouer de manière adaptative les étapes d'inférence en fonction de la complexité de la tâche. Les résultats expérimentaux obtenus sur les benchmarks ScreenSpot Pro et ScreenSpot-v2 démontrent l'efficacité de LASER, démontrant ses performances parmi les modèles à l'échelle 7B. Plus précisément, LASER, affiné sur GTA1-7B, a obtenu un score de 55,7 sur le benchmark ScreenSpot-Pro.