본 논문은 의료 영상 데이터인 초음파 비디오의 자동 분석을 위한 데이터 효율적인 Vision Mamba 네트워크인 E-ViM$^3$을 제안합니다. E-ViM$^3$은 비디오 데이터의 3D 구조를 유지하여 장거리 의존성과 귀납적 편향을 향상시켜 시공간 상관관계를 더 잘 모델링합니다. Enclosure Global Tokens (EGT)을 통해 기존 방법보다 효과적으로 전역 특징을 포착하고 집계합니다. 마스크 비디오 모델링과 Spatial-Temporal Chained (STC) 마스킹 전략을 사용하여 자기 지도 학습을 통해 데이터 효율성을 높입니다. EchoNet-Dynamic, CAMUS, MICCAI-BUV, WHBUS 네 가지 크기의 데이터셋에서 두 가지 고차원 의미 분석 작업에서 최첨단 성능을 달성하며, 제한된 레이블로도 경쟁력 있는 성능을 보여줍니다.