每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

说“也许”的艺术:用于 VLM 中不确定性基准测试的共形镜头

Created by
  • Haebom

作者

Asif Azad、Mohammad Sadat Hossain、医学博士 Sadik Hossain Shanto、M Saifur Ra​​hman、医学博士 Rizwan Parvez

大纲

本文对视觉语言模型 (VLM) 中的不确定性量化进行了全面的基准研究。通过在六个多模态数据集和三个不同的评分函数上评估 16 个最先进的 VLM(开源和闭源),我们证明了更大的模型能够产生更好的不确定性量化性能。虽然置信度更高的模型能够实现更高的准确率,但与其他领域相比,所有模型在数学和推理任务中的不确定性性能均较低。这项研究为多模态系统中可靠的不确定性评估奠定了基础。

Takeaways, Limitations

Takeaways:
首次对 VLM 中的不确定性量化进行全面的基准研究。
研究模型大小与不确定性量化性能之间的相关性。
分析不同任务类型之间的不确定性性能差异。
有助于提高多模式系统的可靠性。
Limitations:
用于评估的 VLM、数据集和评分函数的类型可能有限。
有可能只考虑了某些类型的不确定性。
需要在实际应用中验证泛化性能。
👍