본 논문은 MRI 스캔에 대한 임상적으로 관련된 캡션을 생성하기 위한 변압기 기반의 다중 모달 프레임워크를 제시한다. DEiT-Small 비전 변압기를 이미지 인코더로, MediCareBERT를 캡션 임베딩으로 사용하고, 사용자 정의 LSTM 기반 디코더를 결합하여 시스템을 구축했다. 하이브리드 코사인-MSE 손실과 벡터 유사성을 통한 대조적 추론을 사용하여 이미지와 텍스트 임베딩을 의미적으로 정렬하도록 설계되었다. MultiCaRe 데이터셋에서, 뇌 MRI에 특화된 데이터와 일반 MRI 이미지를 사용하여 BLIP, R2GenGPT, 및 최신 변압기 기반 방법들을 포함한 최첨단 의료 영상 캡셔닝 방법들과 성능을 비교했다. 도메인 특정 데이터에 집중함으로써 캡션 정확도와 의미적 정렬이 향상됨을 확인했다. 본 연구는 자동화된 의료 영상 보고를 위한 확장 가능하고 해석 가능한 솔루션을 제안한다.