Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object Detection

Created by
  • Haebom

저자

Xiaochun Lei, Siqi Wu, Weilin Wu, Zetao Jiang

개요

본 논문은 실시간 객체 탐지에서 제한된 계산 자원 하에서 속도와 정확도의 균형을 맞추는 새로운 프레임워크인 MambaNeXt-YOLO를 제안합니다. 기존 Transformer 기반 아키텍처의 높은 계산 복잡도 문제를 해결하기 위해, 선형 상태 공간 모델인 Mamba를 활용하여 효율적인 시퀀스 모델링을 구현합니다. 핵심 기여는 세 가지로, CNN과 Mamba를 통합한 MambaNeXt Block을 통해 국소 특징과 장거리 의존성을 효과적으로 포착하고, 다중 스케일 객체 탐지를 개선하는 MAFPN(Multi-branch Asymmetric Fusion Pyramid Network)을 제시하며, NVIDIA Jetson Xavier NX 및 Orin NX와 같은 에지 디바이스에서의 배포를 지원하는 효율성을 달성하는 데 있습니다. PASCAL VOC 데이터셋에서 31.9 FPS로 66.6% mAP를 달성하였으며, 사전 훈련 없이도 성능을 보였습니다.

시사점, 한계점

시사점:
Mamba 기반의 효율적인 실시간 객체 탐지 프레임워크를 제시하여 계산 자원이 제한된 환경에서의 객체 탐지 성능 향상에 기여.
MambaNeXt Block과 MAFPN을 통해 정확도와 속도의 균형을 효과적으로 달성.
에지 디바이스에서의 실시간 객체 탐지 가능성을 제시.
사전 훈련 없이도 우수한 성능을 달성.
한계점:
PASCAL VOC 데이터셋만을 사용하여 평가되었으므로, 다른 데이터셋에서의 일반화 성능은 추가적인 연구가 필요.
제안된 방법의 다른 최첨단 모델과의 비교 분석이 더욱 상세하게 제시될 필요가 있음.
MambaNeXt-YOLO의 에지 디바이스 배포에 대한 자세한 기술적 설명 부족.
👍