Los modelos de lenguaje visual a gran escala (LVLM) demuestran un rendimiento potente en pruebas multimodales, pero presentan limitaciones en la inferencia estructural y la precisión de la conexión a tierra. Este estudio investiga el fenómeno de que la adición de estructuras visuales simples (p. ej., segmentación, anotación, etc.) mejora la precisión y propone el concepto de "identificadores de conexión a tierra", identificadores latentes inducidos por señales externas. Los identificadores de conexión a tierra vinculan entidades a segmentos específicos en diferentes modalidades. El análisis de la representación revela que estos identificadores exhiben una sólida alineación intrasegmento en el espacio de incrustación, lo que reduce la brecha modal entre imágenes y texto. La intervención causal confirma que estos identificadores median la asociación entre objetos y señales simbólicas. Los identificadores de conexión a tierra mejoran la conexión a tierra intermodal y reducen las alucinaciones al aumentar la atención entre los componentes relevantes. Nuestros hallazgos revelan que los identificadores de conexión a tierra son un mecanismo simbólico clave mediante el cual las señales externas mejoran la vinculación multimodal, ofreciendo mejoras tanto en la interpretabilidad como en la robustez.