Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CBVLM: Training-free Explainable Concept-based Large Vision Language Models for Medical Image Classification

Created by
  • Haebom

作者

Cristiano Patr icio, Isabel Rio-Torto, Jaime S. Cardoso, Lu is F. Teixeira, Jo ao C. Neves

概要

本論文は、医療画像分析におけるディープラーニングベースのソリューションの採用を制限する主な問題である注釈データの不足と解釈可能性の不足を解決するために、大規模ビジョン言語モデル(LVLM)を活用するCBVLM(Concept Bottleneck Vision-Language Model)を提案する。 CBVLMはLVLMを介して画像内の概念の有無を特定し、それに基づいて画像を分類します。さらに、状況学習のための最適な例を選択する検索モジュールを組み込んで、注釈コストを削減し、解釈の可能性を高める。 4つの医療データセットと12のLVLMを対象とした広範な実験により、CBVLMは従来の方法論よりも優れた性能を示しています。

Takeaways、Limitations

Takeaways:
LVLMの少数ショット学習能力を活用し、注釈コストを大幅に削減。
概念ベースの記述によりモデルの解釈の可能性を改善
追加の学習なしに、さまざまな医療データセットで一貫したパフォーマンスが得られます。
既存のCBM(Concept Bottleneck Model)およびタスク固有のスーパーバイザ方式よりも優れたパフォーマンス。
Limitations:
LVLMの性能に大きく依存し、モデルの限界はCBVLMの性能にも影響を与えます。
概念定義と検索モジュールの品質は、結果に重要な作用。
LVLMの計算コストが高くなる可能性があります。
👍