Este artículo presenta un estudio exhaustivo de las características multimodales de grano fino en modelos lingüísticos multimodales a gran escala (MLLM), abordando específicamente el problema de la verdad fundamental visual (VG). Si bien estudios previos han empleado diversas opciones de diseño, ha faltado una validación sistemática que las respalde. Este estudio analiza diversas opciones de diseño que afectan el rendimiento de la VG de los MLLM utilizando LLaVA-1.5. Mediante la exploración de paradigmas de VG en MLLM y un estudio de ablación del diseño de la verdad fundamental, proponemos un método para optimizar el rendimiento de la VG. Como resultado, logramos mejoras de rendimiento del +5,6 %, +6,9 % y +7,0 % en RefCOCO/+/g en comparación con LLaVA-1.5.