Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation

Created by
  • Haebom

저자

Yang Zhou, Shiyu Zhao, Yuxiao Chen, Zhenting Wang, Can Jin, Dimitris N. Metaxas

개요

대규모 시각-언어 데이터로 학습된 거대 기초 모델은 합성 훈련 데이터를 통해 개방형 어휘 객체 탐지(OVD)를 향상시킬 수 있지만, 수작업 파이프라인은 종종 편향을 도입하고 특정 프롬프트에 과적합될 수 있습니다. 본 논문에서는 거대 언어 모델(LLM)의 은닉 상태를 탐지기에 직접 융합하는 방법을 제시하여 이 문제를 해결합니다. MLLM의 LLM 디코더 레이어를 활용하여 시각적 기반을 강화하는 체계적인 방법을 제시하며, LLM에서 객체 탐지기로 효율적인 지식 융합을 가능하게 하는 0으로 초기화된 크로스 어텐션 어댑터를 도입합니다. 이 새로운 접근 방식을 LED(LLM Enhanced Open-Vocabulary Object Detection)라고 합니다. 중간 LLM 레이어는 이미 풍부한 공간 의미를 인코딩하고 있으며, 초기 레이어만 적용해도 대부분의 성능 향상을 얻을 수 있음을 발견했습니다. Swin-T를 비전 인코더로 사용하여 Qwen2-0.5B + LED는 OmniLabel에서 GroundingDINO를 3.82% 향상시키는 동시에 추가 GFLOPs는 8.7%에 불과하며, 더 큰 비전 백본을 사용하면 향상폭이 6.22%까지 증가합니다. 어댑터 변형, LLM 규모 및 융합 깊이에 대한 광범위한 실험을 통해 설계의 타당성을 확인했습니다.

시사점, 한계점

시사점:
LLM의 은닉 상태를 직접 융합하는 새로운 OVD 향상 방법 제시.
LLM의 초기 레이어만 활용하여 효율적인 성능 향상 달성.
Qwen2-0.5B와 결합하여 GroundingDINO 성능을 상당히 향상시킴.
비전 백본의 크기에 따라 성능 향상폭이 증가함을 보임.
한계점:
제시된 방법의 일반성에 대한 추가적인 검증 필요.
다른 LLM 및 비전 백본과의 호환성에 대한 추가 연구 필요.
특정 LLM 및 데이터셋에 대한 의존성 가능성.
👍