本文提出了一种名为 InfMasking 的新方法,用于在多模态表征学习中有效捕捉模态间的协同效应。InfMasking 采用无限掩蔽策略,随机掩蔽每个模态的大部分特征,仅保留部分信息,从而生成具有多种协同模式的表征。未掩蔽的融合表征通过互信息最大化与掩蔽后的表征对齐,编码出全面的协同信息。该方法在训练过程中将模型暴露于各种部分模态的组合,从而能够捕捉丰富的交互作用。为了解决计算复杂度问题,我们推导出 InfMasking 损失函数来近似互信息估计。在大规模真实数据集上的实验表明,InfMasking 在七个基准测试中均达到了最佳性能。