本文强调了对一种能够超越文本分类和推断文本-图像对的模型的需求,该模型能够检测多模态新闻中的偏见。为此,我们提出了 ViLBias,一个类似于 VQA 的基准测试和框架。ViLBias 使用一个包含 40,945 个文本-图像对的数据集,这些对来自各个新闻机构,并通过基于 LLM 的两阶段注释流程标注了偏见标签和简明理由。我们评估了 SLM、LLM 和 VLM 在封闭查询分类和开放查询推理 (oVQA) 方面的性能,并比较了参数高效的调优策略。我们证明了将图像与文本相结合可以提高检测准确率,并且 LLM/VLM 比 SLM 更能捕捉到细微的框架和文本-图像不匹配。一种参数高效的方法 (LoRA/QLoRA/Adapters) 以不到 5% 的可学习参数恢复了 97-99% 的整体微调性能。对于 oVQA,推理准确率在 52% 到 79% 之间,保真度在 68% 到 89% 之间,并通过指令调整得到了提升。封闭式查询准确率与推理准确率表现出很强的相关性。ViLBias 为多模态偏差检测和证据质量提供了可扩展的基准和稳健的基线。