본 논문은 Mamba와 Transformer의 장점을 결합한 하이브리드 네트워크의 효과적인 사전 학습 방법을 제시합니다. 기존의 Masked Autoencoders (MAE)나 autoregressive (AR) 사전 학습 방법은 단일 네트워크 구조에 초점을 맞춘 반면, 본 논문에서는 Mamba와 Transformer 두 구성 요소 모두에 효과적인 Masked Autoregressive Pretraining (MAP) 전략을 제안합니다. MAP는 MAE와 AR의 장점을 결합하여 하이브리드 Mamba-Transformer 비전 백본 네트워크의 성능을 향상시킵니다. 실험 결과, MAP로 사전 학습된 하이브리드 네트워크는 다른 사전 학습 전략보다 우수한 성능을 보이며, 2D 및 3D 데이터셋에서 최첨단 성능을 달성함을 보여줍니다. 코드와 체크포인트는 https://github.com/yunzeliu/MAP 에서 이용 가능합니다.