Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation

Created by
  • Haebom

저자

Yang Zhou, Shiyu Zhao, Yuxiao Chen, Zhenting Wang, Can Jin, Dimitris N. Metaxas

개요

대규모 비전-언어 데이터로 학습된 거대 언어 모델(LLM)은 합성 훈련 데이터를 통해 개방형 어휘 객체 탐지(OVD)를 향상시킬 수 있지만, 수작업 파이프라인은 종종 편향을 도입하고 특정 프롬프트에 과적합될 수 있습니다. 본 논문에서는 LLM의 디코더 계층을 활용하여 시각적 근거를 향상시키는 체계적인 방법을 제시합니다. LLM에서 객체 탐지기로 효율적인 지식 융합을 가능하게 하는 제로 초기화된 크로스 어텐션 어댑터를 도입하여 LED(LLM Enhanced Open-Vocabulary Object Detection)라는 새로운 접근 방식을 제시합니다. 중간 LLM 계층은 이미 풍부한 공간 의미를 인코딩하고 있으며, 초기 계층만 적용해도 대부분의 이점을 얻을 수 있음을 발견했습니다. Swin-T를 비전 인코더로 사용하여 Qwen2-0.5B + LED는 OmniLabel에서 GroundingDINO를 3.82% 향상시키며, 추가 GFLOPs는 8.7%에 불과합니다. 더 큰 비전 백본을 사용하면 향상이 6.22%까지 증가합니다. 어댑터 변형, LLM 규모 및 융합 깊이에 대한 광범위한 실험을 통해 설계의 타당성을 확인했습니다.

시사점, 한계점

시사점:
LLM의 디코더 계층을 활용하여 개방형 어휘 객체 탐지 성능을 효과적으로 향상시키는 새로운 방법(LED) 제시.
수작업 파이프라인의 편향 및 과적합 문제를 해결.
LLM의 중간 계층이 풍부한 공간 의미를 이미 인코딩하고 있음을 확인.
적은 추가 계산 비용으로 상당한 성능 향상을 달성.
다양한 실험을 통해 LED의 효과와 설계의 타당성을 입증.
한계점:
특정 LLM(Qwen2-0.5B)과 비전 백본(Swin-T)에 대한 실험 결과 위주로, 다른 모델에 대한 일반화 가능성은 추가 연구 필요.
어댑터의 설계 및 최적화에 대한 추가 연구가 필요할 수 있음.
실제 응용 환경에서의 성능 평가가 부족.
👍