본 논문은 하이브리드 Mamba-Transformer 비전 백본 네트워크를 효과적으로 사전 훈련시키기 위한 새로운 방법인 Masked Autoregressive Pretraining (MAP)을 제안합니다. 기존의 Masked Autoencoders (MAE)나 autoregressive (AR) 사전 훈련 방법은 단일 네트워크 아키텍처에 초점을 맞춘 반면, MAP는 Mamba와 Transformer 구성 요소 모두에 효과적인 하이브리드 아키텍처를 위한 사전 훈련 전략을 제시합니다. MAP는 MAE와 AR 사전 훈련의 장점을 결합하여 Mamba와 Transformer 모듈의 성능을 향상시키며, 2D 및 3D 데이터셋에서 최첨단 성능을 달성함을 실험적으로 보여줍니다. GitHub에서 코드와 체크포인트를 공개합니다.