Sign In

Transformers in Medicine: Improving Vision-Language Alignment for Medical Image Captioning

Created by
  • Haebom
Category
Empty

저자

Yogesh Thakku Suresh, Vishwajeet Shivaji Hogale, Luca-Alexandru Zamfira, Anandavardhana Hegde

개요

본 논문은 MRI 스캔에 대한 임상적으로 관련된 캡션을 생성하기 위한 변압기 기반의 다중 모달 프레임워크를 제시한다. DEiT-Small 비전 변압기를 이미지 인코더로, MediCareBERT를 캡션 임베딩으로 사용하고, 사용자 정의 LSTM 기반 디코더를 결합하여 시스템을 구축했다. 하이브리드 코사인-MSE 손실과 벡터 유사성을 통한 대조적 추론을 사용하여 이미지와 텍스트 임베딩을 의미적으로 정렬하도록 설계되었다. MultiCaRe 데이터셋에서, 뇌 MRI에 특화된 데이터와 일반 MRI 이미지를 사용하여 BLIP, R2GenGPT, 및 최신 변압기 기반 방법들을 포함한 최첨단 의료 영상 캡셔닝 방법들과 성능을 비교했다. 도메인 특정 데이터에 집중함으로써 캡션 정확도와 의미적 정렬이 향상됨을 확인했다. 본 연구는 자동화된 의료 영상 보고를 위한 확장 가능하고 해석 가능한 솔루션을 제안한다.

시사점, 한계점

시사점:
MRI 캡셔닝을 위한 변압기 기반 다중 모달 프레임워크 제시.
도메인 특정 데이터 사용을 통한 캡션 정확도 및 의미적 정렬 향상 입증.
자동화된 의료 영상 보고를 위한 확장 가능하고 해석 가능한 솔루션 제시.
한계점:
MultiCaRe 데이터셋에 대한 실험 결과만 제시.
다른 의료 영상 모달리티에 대한 적용 가능성은 명시되지 않음.
해석 가능성 향상에 대한 구체적인 방법론 제시 부족.
👍