Cet article aborde le problème de la modélisation par requêtes en langage naturel dans les interfaces utilisateur graphiques (IUG), souvent confrontées à une multitude d'éléments visuels, à un encombrement spatial et à une ambiguïté linguistique. Nous présentons DiMo-GUI, un framework d'IUG sans apprentissage, qui exploite deux stratégies principales : l'optimisation dynamique visuelle et l'optimisation par modalité. Au lieu de traiter l'IUG comme une image unique, l'entrée est divisée en éléments textuels et iconographiques, et un modèle commun de langage visuel est utilisé pour inférer chaque modalité indépendamment. Lorsque la prédiction est ambiguë ou incorrecte, DiMo-GUI focalise dynamiquement l'attention en générant des zones de focus candidates centrées sur la prédiction initiale du modèle et en les étendant progressivement à des sous-régions pour améliorer les résultats sous-jacents. Ce processus de raffinement hiérarchique permet de lever l'ambiguïté dans les présentations visuellement encombrées sans apprentissage ni annotation supplémentaire. Nous évaluons notre approche sur des benchmarks IUG standard et démontrons des améliorations constantes par rapport aux pipelines d'inférence de base, soulignant l'efficacité de la combinaison de la séparation des modalités et de l'inférence centrée sur les régions.