SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding
Created by
Haebom
Category
Empty
저자
Ying Chen, Guoan Wang, Yuanfeng Ji, Yanjun Li, Jin Ye, Tianbin Li, Ming Hu, Rongshan Yu, Yu Qiao, Junjun He
개요
SlideChat은 기가픽셀 크기의 전체 슬라이드 이미지(WSI)를 이해할 수 있는 최초의 시각-언어 비서 모델입니다. 기존의 다중 모달 대규모 언어 모델(MLLM)이 패치 수준 분석에만 집중하여 전체 슬라이드 수준의 맥락 정보를 놓치는 한계를 극복하기 위해, 4.2K WSI 캡션과 176K VQA 쌍으로 구성된 대규모 지시 따르기 데이터셋 SlideInstruction을 구축했습니다. SlideChat은 다양한 병리학적 시나리오에서 복잡한 지시에 대한 우수한 다중 모달 대화 능력과 응답 능력을 보여주며, SlideBench라는 다중 모달 벤치마크를 통해 캡션 생성 및 VQA 작업에서 최첨단 성능을 달성했습니다. 특히 SlideBench-VQA (TCGA)에서 81.17%, SlideBench-VQA (BCNB)에서 54.15%의 정확도를 기록했습니다. 코드, 데이터 및 모델은 공개적으로 접근 가능합니다.
시사점, 한계점
•
시사점:
◦
기가픽셀 WSI를 이해하는 최초의 시각-언어 비서 모델 제시.
◦
대규모 WSI 지시 따르기 데이터셋 SlideInstruction 구축.
◦
다양한 임상 환경에서의 성능 평가를 위한 다중 모달 벤치마크 SlideBench 제안.
◦
다수의 작업에서 최첨단 성능 달성.
◦
코드, 데이터 및 모델 공개.
•
한계점:
◦
아직 TCGA와 BCNB 데이터셋에서 완벽한 성능을 보여주지는 못함 (각각 81.17%, 54.15%).
◦
대규모 WSI 데이터 처리의 어려움으로 인한 데이터셋 크기의 제한 (향후 더 큰 데이터셋 필요성 시사).