Fine-tuning Vision Language Models with Graph-based Knowledge for Explainable Medical Image Analysis
Created by
Haebom
저자
Chenjun Li, Laurin Lux, Alexander H. Berger, Martin J. Menten, Mert R. Sabuncu, Johannes C. Paetzold
개요
본 논문은 당뇨병성 망막증(DR)의 정확한 병기 분류를 위해 시각-언어 모델(VLMs)과 그래프 표현 학습을 통합한 새로운 설명 가능한 진단 방법을 제시합니다. 광간섭 단층촬영 혈관조영술(OCTA) 이미지를 사용하여 혈관 형태 및 공간 연결성과 같은 핵심 망막 혈관 특징을 인코딩하는 생물학적으로 정보화된 그래프를 구성합니다. 그래프 신경망(GNN)을 사용하여 DR 병기를 분류하고, 통합 그래디언트를 통해 분류 결정을 이끄는 중요한 노드, 에지 및 개별 특징을 강조합니다. 모델의 예측을 생리적 구조와 특징에 귀속시키는 그래프 기반 지식을 수집하여 VLMs를 위한 텍스트 설명으로 변환합니다. 이러한 텍스트 설명과 해당 이미지를 사용하여 지도 학습을 통해 학생 VLM을 훈련시킵니다. 최종 에이전트는 단일 이미지 입력만으로 질병을 분류하고 인간이 이해할 수 있는 방식으로 결정을 설명할 수 있습니다. 독점 및 공개 데이터셋에 대한 실험 평가는 본 방법이 분류 정확도를 향상시킬 뿐만 아니라 임상적으로 더 해석 가능한 결과를 제공함을 보여줍니다. 전문가 연구는 본 방법이 더 정확한 진단 설명을 제공하고 OCTA 이미지에서 병리의 정확한 위치 파악을 위한 길을 열어줌을 보여줍니다.