Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DEIM: DETR with Improved Matching for Fast Convergence

Created by
  • Haebom
Category
Empty

저자

Shihua Huang, Zhichao Lu, Xiaodong Cun, Yongjun Yu, Xiao Zhou, Xi Shen

개요

DEIM(Dense Embedding with Improved Matching)은 Transformer 기반 실시간 객체 탐지 모델(DETR)의 수렴 속도를 높이기 위한 효율적인 학습 프레임워크입니다. 기존 DETR의 일대일 매칭(O2O)의 희소한 지도 문제를 해결하기 위해, DEIM은 기존 데이터 증강 기법을 활용하여 추가적인 타겟을 포함하는 밀집 일대일(Dense O2O) 매칭 전략을 사용합니다. 밀집 일대일 매칭으로 수렴 속도는 향상되지만 낮은 품질의 매칭이 증가하는 문제를 해결하기 위해, 다양한 품질 수준의 매칭을 최적화하는 매칭 가능성 인식 손실 함수(MAL)를 제안합니다. COCO 데이터셋에서의 실험 결과, RT-DETR 및 D-FINE과 통합된 DEIM은 성능을 향상시키는 동시에 학습 시간을 50% 단축합니다. 특히 RT-DETRv2와 함께 사용하면 NVIDIA 4090 GPU에서 하루 만에 53.2% AP를 달성합니다. 또한, 추가 데이터 없이도 기존 최고 성능의 실시간 객체 탐지기를 능가하는 성능을 보입니다. (DEIM-D-FINE-L: 54.7% AP, 124 FPS; DEIM-D-FINE-X: 56.5% AP, 78 FPS on NVIDIA T4 GPU).

시사점, 한계점

시사점:
Transformer 기반 실시간 객체 탐지 모델의 학습 속도를 크게 향상시킴 (50% 단축).
밀집 일대일 매칭과 매칭 가능성 인식 손실 함수를 통해 기존 모델의 성능을 뛰어넘는 결과 달성.
추가 데이터 없이도 우수한 성능을 보임.
실시간 객체 탐지 분야의 새로운 기준 제시.
한계점:
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구가 필요할 수 있음.
다른 객체 탐지 데이터셋에 대한 성능 평가가 추가적으로 필요함.
밀집 일대일 매칭으로 인해 발생하는 계산량 증가에 대한 고찰이 부족함.
👍