본 논문은 심장 초음파 영상 이해를 위한 자기 지도 학습(Self-supervised learning, SSL) 프레임워크인 DISCOVR(Distilled Image Supervision for Cross Modal Video Representation)을 제시한다. DISCOVR는 시간적 역학을 모델링하는 클러스터 기반 비디오 인코더와 세밀한 공간적 의미를 추출하는 온라인 이미지 인코더를 결합한 이중 분기 프레임워크이다. 두 인코더는 해부학적 지식을 전달하는 의미론적 클러스터 증류 손실을 통해 연결되어, 시간적으로 일관되고 세밀한 의미론적 이해가 풍부한 표현을 가능하게 한다. DISCOVR는 태아, 소아, 성인 집단을 포함하는 6개의 심장 초음파 데이터 세트에서 평가되었으며, 제로샷 및 선형 프로빙 설정에서 전문 비디오 이상 감지 방법 및 최첨단 비디오 SSL 기반을 능가하는 성능을 보였다. 또한, 분절 전송 성능이 우수하고 LVEF 예측과 같은 임상적으로 관련된 작업에서 강력한 다운스트림 성능을 달성했다.