每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

InfMasking:通过对比多模态相互作用释放协同信息

Created by
  • Haebom

作者

文良建、戴群、刘建壮、郑江涛、戴勇、王东凯、康兆、王军、徐增林、段江

InfMasking:用于多模态表征学习的对比协同信息提取

大纲

本文提出了一种名为 InfMasking 的新方法,用于在多模态表征学习中有效捕捉模态间的协同效应。InfMasking 采用无限掩蔽策略,随机掩蔽每个模态的大部分特征,仅保留部分信息,从而生成具有多种协同模式的表征。未掩蔽的融合表征通过互信息最大化与掩蔽后的表征对齐,编码出全面的协同信息。该方法在训练过程中将模型暴露于各种部分模态的组合,从而能够捕捉丰富的交互作用。为了解决计算复杂度问题,我们推导出 InfMasking 损失函数来近似互信息估计。在大规模真实数据集上的实验表明,InfMasking 在七个基准测试中均达到了最佳性能。

Takeaways, Limitations

Takeaways:
我们强调协同信息在多模态表征学习中的重要性,并提出了一种有效捕捉它的新方法。
通过无限掩蔽策略实现对各种协同模式的学习。
考虑计算效率的 InfMasking 损失的开发。
在多样化的真实世界数据集上实现最先进的性能。
Limitations:
无限掩蔽策略的理论背景和具体的数值有效性分析还有待进一步研究。
InfMasking损失的近似计算的准确性和稳定性还有待进一步研究。
需要对各种模态组合和复杂的交互模式进行可扩展性审查。
👍