Multi-Modal Foundation Models for Computational Pathology: A Survey
Created by
Haebom
Category
Empty
저자
Dong Li, Guihong Wan, Xintao Wu, Xinyu Wu, Xiaohui Chen, Yi He, Christine G. Lian, Peter K. Sorger, Yevgeniy R. Semenov, Chen Zhao
개요
본 논문은 계산 병리학(CPath)에서 다중 모달 기반 모델의 최신 동향을 종합적으로 검토한 설문 조사 논문입니다. 특히 헤마톡실린-에오신(H&E) 염색 전체 슬라이드 이미지(WSI)와 타일 수준 표현을 기반으로 구축된 모델에 중점을 두고 있습니다. 32개의 최첨단 다중 모달 기반 모델을 시각-언어, 시각-지식 그래프, 시각-유전자 발현의 세 가지 주요 패러다임으로 분류하고, 시각-언어 모델을 LLM 기반 및 비-LLM 기반으로 추가 분류합니다. 또한 병리학에 맞춰 제작된 28개의 다중 모달 데이터셋을 이미지-텍스트 쌍, 지시 데이터셋, 이미지-다른 모달리티 쌍으로 그룹화하여 분석합니다. 하위 작업 분류, 훈련 및 평가 전략, 주요 과제 및 미래 방향도 제시합니다. 병리학과 AI의 교차점에서 연구하는 연구자와 실무자를 위한 귀중한 자료가 되는 것을 목표로 합니다.
시사점, 한계점
•
시사점:
◦
다중 모달 기반 모델이 계산 병리학에서 확장 가능하고 일반화 가능한 분석을 가능하게 함을 보여줍니다.
◦
시각-언어, 시각-지식 그래프, 시각-유전자 발현 등 다양한 다중 모달 기반 모델 패러다임을 체계적으로 분류하고 분석합니다.
◦
병리학 관련 다중 모달 데이터셋을 종합적으로 분석하여 연구자에게 유용한 정보를 제공합니다.
◦
계산 병리학 분야의 미래 방향과 주요 과제를 제시합니다.
•
한계점:
◦
논문에서 다룬 모델과 데이터셋이 특정 시점까지의 것으로, 최신 연구 동향을 완벽하게 반영하지 못할 수 있습니다.
◦
다중 모달 데이터의 통합 및 해석과 관련된 기술적 어려움에 대한 심층적인 논의가 부족할 수 있습니다.