본 논문은 3D 의료 영상 분할을 위한 Masked Autoencoders (MAEs)의 새로운 확장을 제안합니다. 기존 MAE가 ViT 아키텍처에 맞춰 개발되어 기하학적 형상과 공간 정보를 충분히 포착하지 못하는 문제를 해결하기 위해, (1) 위상적 손실을 도입하여 기하학적 형상 정보를 보존하고, (2) 3D crop의 중심 및 8개 모서리 위치를 예측하는 pre-text task를 추가하여 공간 정보를 통합하며, (3) 최신 의료 영상 분할 아키텍처와의 co-pretraining을 수행합니다. (4) pre-trained ViT 인코더와 pre-trained SOTA 모델을 결합하여 downstream segmentation task에 적합한 fine-tuned 모델을 개발합니다. 다섯 개의 공개 3D 분할 데이터셋에 대한 광범위한 실험을 통해 제안된 방법의 효과를 입증합니다.