大规模视觉语言模型 (LVLM) 在多模态基准测试中展现出强大的性能,但在结构推理和准确基础构建方面存在局限性。本研究探讨了添加简单的视觉结构(例如,分割、注释等)可提高准确率的现象,并提出了“基础标识符”的概念,即由外部线索诱导的潜在标识符。基础标识符将实体与跨模态的指定片段关联起来。表征分析表明,这些标识符在嵌入空间中表现出稳健的片段内对齐,从而弥合了图像和文本之间的模态差距。因果干预证实了这些标识符介导了对象与符号线索之间的关联。基础标识符通过增强相关组件之间的注意力来增强跨模态基础构建并减少幻觉。我们的研究结果表明,基础标识符是外部线索增强多模态绑定的关键符号机制,既提供了可解释性,也显著提高了稳健性。