每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

揭示接地ID:外部线索如何影响多模态绑定

Created by
  • Haebom

作者

侯赛因·哈萨尼、阿米尔穆罕默德·伊扎迪、法特梅·阿斯卡里、莫宾·巴盖里安、萨德·穆罕默德迪安、穆罕默德·伊扎迪、马赫迪·苏莱曼尼·巴格沙

大纲

大规模视觉语言模型 (LVLM) 在多模态基准测试中展现出强大的性能,但在结构推理和准确基础构建方面存在局限性。本研究探讨了添加简单的视觉结构(例如,分割、注释等)可提高准确率的现象,并提出了“基础标识符”的概念,即由外部线索诱导的潜在标识符。基础标识符将实体与跨模态的指定片段关联起来。表征分析表明,这些标识符在嵌入空间中表现出稳健的片段内对齐,从而弥合了图像和文本之间的模态差距。因果干预证实了这些标识符介导了对象与符号线索之间的关联。基础标识符通过增强相关组件之间的注意力来增强跨模态基础构建并减少幻觉。我们的研究结果表明,基础标识符是外部线索增强多模态绑定的关键符号机制,既提供了可解释性,也显著提高了稳健性。

Takeaways, Limitations

Takeaways:
接地 ID 提供了一种核心机制来解释通过外部线索增强的多模态耦合。
接地 ID 通过在嵌入空间中引入分区内对齐来减少模态差距。
接地 ID 增强了注意力机制,以改善跨模式接地并减少幻觉。
提供改进的可解释性和实用稳健性。
Limitations:
论文中没有明确提及具体的 Limitations。
👍