본 논문은 유방암 조기 진단에 필수적인 맘모그래피 판독의 속도와 정확도 향상을 위해 심층 학습 기반의 기초 시각 언어 모델(VLM) 개발을 제안합니다. 기존 자연 이미지 기반 VLM은 맘모그래피의 다중 뷰 관계와 같은 영역 특징을 고려하지 못하는 한계가 있습니다. 따라서 본 논문에서는 맘모그래피의 다중 뷰 이미징 과정에 대한 사전 지식을 활용하여 전역 및 지역적 시각-시각, 시각-언어 대조 학습을 통해 국소적인 교차 뷰 정렬과 세밀한 국소적 특징을 학습하는 GLAM(Global and Local Alignment for Multi-view mammography) 모델을 제시합니다. GLAM은 대규모 맘모그래피 데이터셋인 EMBED를 사용하여 사전 훈련되었으며, 다양한 설정 하에서 기존 방법보다 우수한 성능을 보입니다.