RegionMed-CLIPは、医療画像の自動診断とデータ駆動型の臨床意思決定支援を強化するために設計された地域認識マルチモーダル対照学習フレームワークです。医療データの欠如と重要な病理学的領域を見逃すグローバルな画像特性への過度の依存という2つの主要な課題を解決するために、地域の特徴とグローバルなコンテキストを適応的に統合するROI(関心領域)プロセッサと階層的マルチモーダルアラインメントを向上させる段階的な学習戦略を導入しました。広範な地域注釈と多段階臨床説明を特徴とする大規模な医療映像テキストコーパスであるMedRegion-500kを構築し、大規模な地域レベルの表現学習を可能にしました。ビデオテキスト検索、ゼロショット分類、および視覚的な質問回答の操作の広範な実験は、RegionMed-CLIPが最先端の視覚言語モデルをはるかに超えていることを示しました。