의료 영상 자동 해석을 위한 새로운 프레임워크인 MIRNet (Medical Image Reasoner Network)을 소개합니다. 이는 자기 지도 학습 사전 훈련과 제약 기반 그래프 추론을 통합합니다. 특히, 미세한 시각적 및 의미적 이해가 필요한 혀 영상 진단에 초점을 맞춥니다. MIRNet은 라벨이 없는 데이터로부터 전이 가능한 시각적 표현을 학습하기 위해 자기 지도 마스크 자동 인코더(MAE)를 활용하고, 전문가가 정의한 구조적 그래프를 통해 라벨 상관 관계를 모델링하기 위해 그래프 어텐션 네트워크(GAT)를 사용하며, KL 발산 및 정규화 손실을 사용하여 제약 인식 최적화를 통해 임상적 사전 지식을 적용하고, 비대칭 손실(ASL) 및 부스팅 앙상블을 사용하여 불균형 문제를 완화합니다. 또한, annotation 부족 문제를 해결하기 위해 22개의 진단 라벨로 주석 처리된 4,000개의 이미지로 구성된 전문가 큐레이션 벤치마크인 TongueAtlas-4K를 도입하여 혀 분석 분야에서 가장 큰 공개 데이터 세트를 제공합니다. 혀 진단에 최적화되었지만, 더 넓은 범위의 진단 의료 영상 작업으로 쉽게 일반화될 수 있습니다.
시사점, 한계점
•
시사점:
◦
자기 지도 학습, 그래프 기반 추론, 임상적 사전 지식 활용을 통합하여 의료 영상 해석 성능 향상.