본 논문은 의료 영상 캡션 생성이라는 어려운 과제에 대해 다룹니다. 최근의 비전-언어 모델(VLMs)들이 자연 이미지 데이터셋에서는 좋은 성능을 보이지만, 의료 영상과 같은 전문 분야에서는 일반적이거나 부정확한 캡션을 생성하는 경향이 있습니다. 따라서 본 연구는 BLIP 모델을 ROCO 데이터셋으로 미세 조정하여 방사선 영상 캡션 생성 성능을 향상시키는 것을 목표로 합니다. BLIP의 미세 조정 버전을 제로샷 버전(BLIP-2 base, BLIP-2 Instruct) 및 ViT-GPT2와 비교 분석하고, 정량적 및 정성적 평가 지표를 통해 미세 조정의 효과를 입증합니다. 디코더 교차 주의 지도 시각화를 통해 해석 가능성을 평가하고, 인코더 전용 및 디코더 전용 미세 조정의 기여도를 분석하는 실험도 수행합니다. 결과적으로, 의료 분야에 특화된 적응의 중요성을 강조하고, 디코더 전용 미세 조정이 전체 미세 조정보다 훈련 시간을 5% 단축하면서 강력한 성능 기준선을 제공하지만, 전체 모델 미세 조정이 최상의 결과를 제공함을 보여줍니다.