使用有偏差的机器学习数据集训练模型会在测试过程中放大这种偏差,这种现象被称为偏差放大。为了测量字幕中的偏差放大,人们使用了基于可预测性的指标“字幕泄漏”(LIC)。然而,LIC 存在局限性:无法识别方向性,词汇替换策略薄弱,并且容易受到攻击模型的影响。为了解决这些问题,本文提出了“字幕方向性可预测性放大”(DPAC),它可以测量字幕中的方向性偏差放大,利用改进的替换策略来更好地估计数据集偏差,并且不易受到攻击模型的影响。在 COCO 字幕数据集上的实验表明,DPAC 是测量字幕偏差放大最可靠的指标。