Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining

Created by
  • Haebom

저자

Yunze Liu, Li Yi

개요

본 논문은 Mamba와 Transformer의 장점을 결합한 하이브리드 네트워크의 효과적인 사전 학습 방법을 제시합니다. 기존의 Masked Autoencoders (MAE)나 autoregressive (AR) 사전 학습 방법은 단일 네트워크 구조에 초점을 맞춘 반면, 본 논문에서는 Mamba와 Transformer 두 구성 요소 모두에 효과적인 Masked Autoregressive Pretraining (MAP) 전략을 제안합니다. MAP는 MAE와 AR의 장점을 결합하여 하이브리드 Mamba-Transformer 비전 백본 네트워크의 성능을 향상시킵니다. 실험 결과, MAP로 사전 학습된 하이브리드 네트워크는 다른 사전 학습 전략보다 우수한 성능을 보이며, 2D 및 3D 데이터셋에서 최첨단 성능을 달성함을 보여줍니다. 코드와 체크포인트는 https://github.com/yunzeliu/MAP 에서 이용 가능합니다.

시사점, 한계점

시사점:
하이브리드 Mamba-Transformer 네트워크의 효과적인 사전 학습 방법인 MAP 제시
MAE와 AR의 장점을 결합하여 Mamba와 Transformer 모듈의 성능 향상
2D 및 3D 데이터셋에서 최첨단 성능 달성
공개된 코드와 체크포인트를 통한 재현성 확보
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구 필요
다양한 하이브리드 아키텍처에 대한 적용성 검증 필요
MAP의 계산 비용 및 메모리 효율성에 대한 분석 필요
👍