每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

CBVLM:用于医学图像分类的无需训练、可解释的基于概念的大型视觉语言模型

Created by
  • Haebom

作者

克里斯蒂亚诺·帕特里西奥、伊莎贝尔·里奥-托尔托、海梅·S·卡多佐、卢是·F·特谢拉、乔·奥·C·内维斯

大纲

缺乏标注数据和可解释性较差是限制深度学习解决方案在医学图像分析中应用的关键挑战,本文提出了概念瓶颈视觉语言模型 (CBVLM),该模型利用了大规模视觉语言模型 (LVLM)。CBVLM 通过 LVLM 识别图像中是否存在概念,并基于此信息进行分类。此外,它集成了一个检索模块,用于选择最佳示例进行上下文学习,从而降低标注成本并增强可解释性。在四个医学数据集和十二个 LVLM 上进行的大量实验表明,CBVLM 的性能优于现有方法。

Takeaways,Limitations

Takeaways:
利用 LVLM 的小样本学习能力显著降低注释成本。
通过基于概念的解释提高模型的可解释性。
无需额外训练即可在不同的医疗数据集上保持一致的表现。
优于现有的 CBM(概念瓶颈模型)和特定任务的监督方法。
Limitations:
它很大程度上依赖于LVLM的性能,而模型的局限性也会影响CBVLM的性能。
概念定义和搜索模块的质量对结果起着重要作用。
LVLM 的计算成本可能很高。
👍