본 논문은 의료 영상 분석에서 CLIP(Contrastive Language-Image Pre-training) 모델의 적용을 유방촬영술에 처음으로 시도한 연구입니다. 기존 CLIP 모델은 데이터 및 연산 자원이 많이 필요하며, 풍부한 데이터를 가진 흉부 X선 영상에 주로 적용되어 왔습니다. 본 연구는 유방촬영술의 특징인 데이터 부족, 고해상도 이미지 내 작은 관심 영역, 클래스 불균형 문제를 해결하기 위해, 다중 뷰를 활용한 특수 감독 프레임워크, 고해상도 이미지의 세부 특징에 집중하는 대칭적 지역 정렬 모듈, 그리고 의학 지식으로 사전 훈련된 대규모 언어 모델의 매개변수 효율적인 미세 조정 기법을 제안합니다. 제안된 MaMA(multi-view and multi-scale alignment) 방법은 EMBED 및 RSNA-Mammo 두 개의 대규모 유방촬영술 데이터셋에서 세 가지 다른 과제에 대해 최첨단 기준 모델들을 능가하며, 기준 모델 대비 52%의 모델 크기만을 사용합니다.