본 논문은 초음파 영상 분석의 어려움을 해결하기 위해, 대규모 초음파 데이터 기반의 자기지도 학습 마스크된 오토인코딩(MAE) 프레임워크인 USF-MAE를 제안한다. USF-MAE는 공개 데이터셋 OpenUS-46 (370,000개의 2D 및 3D 초음파 영상)을 사용하여 사전 학습되었으며, 비전 변환기(Vision Transformer) 인코더-디코더 아키텍처를 활용하여 마스크된 이미지 패치를 재구성한다. 사전 학습된 인코더는 유방암(BUS-BRA), 난소 종양(MMOTU-2D), 위장관 기질 종양(GIST514-DB) 분류 벤치마크에서 미세 조정되었으며, 기존 CNN 및 ViT 기반 모델보다 우수한 성능을 보였다.