Este artículo propone el marco LASER para abordar el problema de la inferencia efectiva de regiones de imagen para Modelos de Lenguaje de Visión (VLM), un desafío clave en tareas de base de GUI bajo entradas de alta resolución e interacciones visuales complejas de múltiples elementos. LASER integra la estimación de calidad de Monte Carlo y la evaluación de la calidad de la región basada en IoU para dotar progresivamente a los VLM con capacidades perceptuales multinivel que mejoran tanto la precisión como la diversidad, permitiendo una predicción precisa de coordenadas. Esto permite que el modelo se centre en regiones clave relevantes para las instrucciones y asigne adaptativamente los pasos de inferencia según la complejidad de la tarea. Los resultados experimentales en los benchmarks ScreenSpot Pro y ScreenSpot-v2 demuestran la efectividad de LASER, demostrando su rendimiento entre modelos de escala 7B. Específicamente, LASER, optimizado en GTA1-7B, obtuvo una puntuación de 55.7 en el benchmark ScreenSpot-Pro.