Siyuan Li, Zedong Wang, Zicheng Liu, Cheng Tan, Haitao Lin, Di Wu, Zhiyuan Chen, Jiangbin Zheng, Stan Z. Li
개요
본 논문은 현대적인 합성곱 신경망(ConvNets)의 표현력 한계를 극복하기 위해 MogaNet이라는 새로운 ConvNets 구조를 제안합니다. 기존 ConvNets는 커널 크기를 키워도 효과적으로 표현력 있는 상호작용을 인코딩하지 못하는 표현 병목 현상을 가지고 있는데, MogaNet은 간단하지만 효과적인 합성곱과 게이트된 집계를 이용하여 이 문제를 해결합니다. MogaNet은 매개변수 효율성이 높고 확장성이 뛰어나며, ImageNet 및 다양한 downstream vision benchmark (COCO object detection, ADE20K semantic segmentation, 2D&3D human pose estimation, video prediction)에서 SOTA ViTs 및 ConvNets에 필적하는 성능을 보입니다. 특히 ImageNet-1K에서 5.2M 및 181M 매개변수로 각각 80.0% 및 87.8%의 정확도를 달성하여 ParC-Net 및 ConvNeXt-L보다 우수한 성능을 보이며, 연산량과 매개변수 수 또한 감소시켰습니다. 소스 코드는 공개되어 있습니다.
시사점, 한계점
•
시사점:
◦
간단하면서도 효과적인 모듈 설계를 통해 ConvNets의 표현력 한계를 극복하고 성능 향상을 이끌어냄.
◦
매개변수 효율성 및 연산량 감소를 통해 경량화된 모델 구축 가능성 제시.
◦
다양한 downstream vision task에서 SOTA 성능 달성.
◦
공개된 소스 코드를 통해 재현성 및 확장성 확보.
•
한계점:
◦
본 논문에서 제시된 MogaNet의 성능 향상이 특정 데이터셋 및 task에 국한될 가능성 존재.