Este artículo aborda el problema del modelado basado en consultas de lenguaje natural en interfaces gráficas de usuario (GUI), que a menudo presentan una variedad de elementos visuales, desorden espacial y ambigüedad lingüística. Presentamos DiMo-GUI, un marco de trabajo basado en GUI sin entrenamiento, que aprovecha dos estrategias principales: optimización visual dinámica y optimización basada en modalidades. En lugar de procesar la GUI como una sola imagen, la entrada se divide en elementos textuales e iconográficos, y se utiliza un modelo común de visión y lenguaje para inferir cada modalidad de forma independiente. Cuando la predicción es ambigua o incorrecta, DiMo-GUI centra la atención dinámicamente generando regiones de enfoque candidatas centradas en la predicción inicial del modelo y expandiéndolas progresivamente a subregiones para mejorar los resultados subyacentes. Este proceso de refinamiento jerárquico ayuda a resolver la ambigüedad en diseños visualmente desordenados sin necesidad de entrenamiento ni anotaciones adicionales. Evaluamos nuestro enfoque en pruebas de rendimiento estándar basadas en GUI y demostramos mejoras consistentes con respecto a los procesos de inferencia de referencia, destacando la eficacia de combinar la separación de modalidades y la inferencia centrada en regiones.