每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

ViLBias:检测和推理多模式内容中的偏见

Created by
  • Haebom

作者

Shaina Raza、Caesar Saleh、Azib Farooq、Emrul Hasan、Franklin Ogidi、Maximus Powers、Veronica Chatrath、Marcelo Lotif、Karanpal Sekhon、Roya Javadi、Haad Zahid、Anam Zahid、Vahid Reza Khazaie、Zhenyu Yu

大纲

本文强调了对一种能够超越文本分类和推断文本-图像对的模型的需求,该模型能够检测多模态新闻中的偏见。为此,我们提出了 ViLBias,一个类似于 VQA 的基准测试和框架。ViLBias 使用一个包含 40,945 个文本-图像对的数据集,这些对来自各个新闻机构,并通过基于 LLM 的两阶段注释流程标注了偏见标签和简明理由。我们评估了 SLM、LLM 和 VLM 在封闭查询分类和开放查询推理 (oVQA) 方面的性能,并比较了参数高效的调优策略。我们证明了将图像与文本相结合可以提高检测准确率,并且 LLM/VLM 比 SLM 更能捕捉到细微的框架和文本-图像不匹配。一种参数高效的方法 (LoRA/QLoRA/Adapters) 以不到 5% 的可学习参数恢复了 97-99% 的整体微调性能。对于 oVQA,推理准确率在 52% 到 79% 之间,保真度在 68% 到 89% 之间,并通过指令调整得到了提升。封闭式查询准确率与推理准确率表现出很强的相关性。ViLBias 为多模态偏差检测和证据质量提供了可扩展的基准和稳健的基线。

Takeaways, Limitations

Takeaways:
结合使用文本和图像可以提高偏见检测的准确性。
LLM/VLM 比 SLM 更好地捕捉细微的偏见。
参数高效的调整技术可以使模型更轻量,而不会影响性能。
模型的推理能力可以通过OVQA进行评估,并通过指令调优进行改进。
封闭查询准确率与推理能力有较高的相关性。
Limitations:
论文本身未指定 Limitations。(对于 arXiv 论文,研究可能仍在进行中,未来版本中可能会添加 Limitations。)
👍