Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CoMA: Complementary Masking and Hierarchical Dynamic Multi-Window Self-Attention in a Unified Pre-training Framework

Created by
  • Haebom
Category
Empty

저자

Jiaxuan Li, Qing Xu, Xiangjian He, Ziyu Liu, Chang Xing, Zhen Chen, Daokun Zhang, Rong Qu, Chang Wen Chen

개요

Masked Autoencoders (MAE)의 한계를 극복하기 위해, Complementary Masked Autoencoders (CoMA)와 Dynamic Multi-Window Self-Attention (DM-MSA)을 사용하는 계층적 비전 변환기인 DyViT를 제안합니다. CoMA는 모든 픽셀에 걸쳐 균일한 샘플링을 보장하여 모든 특징의 효과적인 학습을 개선하고 모델의 적응성을 향상시킵니다. DyViT는 DM-MSA를 통해 파라미터와 FLOPs를 줄이면서 세밀한 특징 학습을 개선합니다. ImageNet-1K에서 CoMA로 사전 학습된 DyViT는 MAE의 다운스트림 성능을 달성하면서 사전 학습 에포크의 12%만 사용하며, 에포크 당 사전 학습 시간을 10% 줄여 효율성을 입증합니다.

시사점, 한계점

시사점:
CoMA를 통해 모든 특징의 효과적인 학습을 가능하게 하여 모델의 적응성을 향상시킴.
DyViT의 DM-MSA를 통해 파라미터 및 FLOPs 감소 및 세밀한 특징 학습 개선.
MAE 대비 더 적은 사전 학습 에포크 및 더 짧은 사전 학습 시간으로 다운스트림 성능 달성.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음.
👍