每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

信任还是不信任你的视觉语言模型的预测

Created by
  • Haebom

作者

董浩、刘默如、梁建、Eleni Chatzi、Olga Fink

大纲

本文提出了 TrustVLM,一个无需训练的视觉语言模型 (VLM) 置信度估计框架。虽然 VLM 在各种应用中都表现出色,但它们容易过度自信地做出错误的预测。TrustVLM 提出了一种新颖的置信度得分函数,该函数利用了 VLM 之间的跨模态差异以及图像嵌入中某些概念的更具体表示。使用 17 个不同数据集、四种架构和两种 VLM 的评估结果显示,与现有基线模型相比,AURC、AUROC 和 FPR95 分别提高了 51.87%、9.14% 和 32.42%。这种无需重新训练的模型置信度提升使得 VLM 能够在实际应用中安全部署。代码可在https://github.com/EPFL-IMOS/TrustVLM获取。

Takeaways, Limitations

Takeaways:
提出一个有效的、无需训练的框架来解决 VLM 的可靠性问题。
使用图像嵌入空间验证置信度函数的优越性
在各种数据集和架构上(基于 AURC、AUROC 和 FPR95)的性能显著提升。
展示在实际应用中安全部署 VLM 的可能性。
Limitations:
需要进一步研究所提出方法的泛化性能。
需要对各种类型的 VLM 和数据集进行大量实验。
可能对某些类型的错误存在偏见
需要提高可靠性评分函数的可解释性和透明度
👍