MuM: Multi-View Masked Image Modeling for 3D Vision
Created by
Haebom
Category
Empty
저자
David Nordstrom, Johan Edstedt, Fredrik Kahl, Georg Bokman
개요
본 논문은 3D 비전 특화된 특징 학습에 초점을 맞춰, 3D 이해를 위한 마스크된 자동 인코딩(MAE) 기법을 확장하는 연구를 제시한다. 동일 장면의 임의의 여러 뷰에 MAE를 적용하고, 프레임 간 주의 기법을 사용하는 경량 디코더를 활용한다. 제안하는 모델 MuM은 피드포워드 재구성, 밀집 이미지 매칭, 상대 포즈 추정 등 다운스트림 작업에서 DINOv3 및 CroCo v2를 능가하는 성능을 보였다.