의료 분야에서 상세 주석 획득의 어려움으로 인해 견고한 비전-언어 모델(VLM)의 필요성이 대두됨. 사전 훈련된 VLM은 소규모 데이터셋에 대한 미세 조정 또는 제로샷 추론을 가능하게 하며, 작업별 모델과 유사한 성능을 달성함. 대조 학습(CL)은 VLM 훈련의 핵심 패러다임이지만, 효과적인 학습을 위해 큰 배치 크기가 필요하며, 이는 계산적으로 부담스럽고 자원이 풍부한 기관에만 제한됨. 또한, 의료 분야의 제한된 데이터를 고려하여 훈련 과정에서 데이터와 모델 모두에서 지식 추출을 우선시하는 것이 중요함. 본 연구에서는 계산 효율성과 지식 활용을 동시에 해결하기 위해 모멘텀 방법과 증류를 결합함. (1) 모멘텀 자기 증류를 활용하여 다중 모달 학습을 향상시키고, (2) 리소스 소비를 증가시키지 않고 효과적인 배치 크기를 늘리기 위해 모멘텀 메커니즘을 기울기 축적과 통합함. 제로샷 분류에서 최첨단(SOTA) 접근 방식과 경쟁력 있는 성능을 달성하는 동시에 소량의 데이터 적응에서 상당한 향상을 보임 (AUC-ROC 90% 이상, 검색 작업 2-3% 향상). 단일 GPU로 높은 훈련 효율성을 달성하며, 합리적인 훈련 시간을 유지함.