Masked Autoencoders (MAE)의 한계를 극복하기 위해, Complementary Masked Autoencoders (CoMA)와 Dynamic Multi-Window Self-Attention (DM-MSA)을 사용하는 계층적 비전 변환기인 DyViT를 제안합니다. CoMA는 모든 픽셀에 걸쳐 균일한 샘플링을 보장하여 모든 특징의 효과적인 학습을 개선하고 모델의 적응성을 향상시킵니다. DyViT는 DM-MSA를 통해 파라미터와 FLOPs를 줄이면서 세밀한 특징 학습을 개선합니다. ImageNet-1K에서 CoMA로 사전 학습된 DyViT는 MAE의 다운스트림 성능을 달성하면서 사전 학습 에포크의 12%만 사용하며, 에포크 당 사전 학습 시간을 10% 줄여 효율성을 입증합니다.
시사점, 한계점
•
시사점:
◦
CoMA를 통해 모든 특징의 효과적인 학습을 가능하게 하여 모델의 적응성을 향상시킴.
◦
DyViT의 DM-MSA를 통해 파라미터 및 FLOPs 감소 및 세밀한 특징 학습 개선.
◦
MAE 대비 더 적은 사전 학습 에포크 및 더 짧은 사전 학습 시간으로 다운스트림 성능 달성.