Cet article propose VISER (Visual Input Structure for Enhanced Reasoning) pour pallier les limites des modèles de langage visuel (MLV) dans leurs capacités de raisonnement visuel. Les MLV peinent à relier de manière fiable les caractéristiques perceptuelles aux référents visuels, ce qui entraîne des erreurs dans des tâches telles que le calcul, la recherche visuelle, la description de scènes et la compréhension des relations spatiales. VISER est une méthode simple mais efficace pour enrichir l'entrée visuelle avec une structure spatiale de bas niveau et ajouter des invites textuelles qui guident l'analyse séquentielle et spatiale. Les résultats expérimentaux démontrent que VISER améliore significativement les performances de diverses tâches de raisonnement visuel. Plus précisément, il améliore la précision de la recherche visuelle de 25,00 % et la précision du calcul de 26,83 % sur GPT-4o, réduit l'erreur de distance d'édition dans la description de scène de 0,32 % et améliore les performances des relations spatiales sur un jeu de données synthétiques 2D de 9,50 %. Cela souligne l'importance de la conception de l'entrée visuelle par rapport aux approches purement linguistiques et suggère que la structuration visuelle de bas niveau représente une voie puissante et inexplorée pour améliorer le raisonnement visuel constructif.