Cet article présente une étude exhaustive des caractéristiques multimodales fines des modèles de langage multimodaux à grande échelle (MLLM), abordant spécifiquement le problème de la vérité terrain visuelle (VG). Bien que les études précédentes aient utilisé divers choix de conception, la validation systématique pour étayer ces conceptions faisait défaut. Cette étude analyse différents choix de conception affectant les performances VG des MLLM utilisant LLaVA-1.5. Grâce à l'exploration des paradigmes VG dans les MLLM et à une étude d'ablation de la conception de la vérité terrain, nous proposons une méthode d'optimisation des performances VG. Ainsi, nous obtenons des gains de performance de +5,6 %, +6,9 % et +7,0 % sur RefCOCO/+/g par rapport à LLaVA-1.5.