Multimodal Medical Image Binding via Shared Text Embeddings
Created by
Haebom
作者
Yunhao Liu, Suyang Xi, Shiqi Liu, Hong Ding, Chicheng Jin, Chong Zhong, Junjun He, Catherine C. Liu, Yiqing Shen
概要
本論文は,様々な医療画像解析のために複数の画像モダリティの特徴を統合する方法を提示した。従来のCLIPベースのアプローチでは、異なるモダリティ間のペアのデータが必要ですが、医療画像データではこれらのデータを取得するのが難しいという制限があります。これを解決するために、この論文はMultimodal Medical Image Binding with Text(M³Bind)という新しい事前学習フレームワークを提案します。 M³Bindは、異なる医療画像モダリティ間で明示的なペアを形成するデータがなくても、共有テキスト表現空間を介して複数のモダリティをシームレスに整列します。具体的には、M³Bindは、事前に訓練されたCLIP様画像 - テキストモデルを微調整して各モダリティのテキスト埋め込みスペースを整列し、その後モダリティ固有のテキストエンコーダを統合モデルに蒸留して共有テキスト埋め込みスペースを作成します。 X-ray、CT、網膜、ECG、および病理学的画像の実験結果、M³Bindは、ゼロショット、ピューショット分類、およびクロスモーダル検索操作でCLIP様モデルよりも優れた性能を達成することを示しています。