Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation

Created by
  • Haebom
Category
Empty

저자

Yang Zhou, Shiyu Zhao, Yuxiao Chen, Zhenting Wang, Dimitris N. Metaxas

개요

본 논문은 대규모 시각-텍스트 데이터로 학습된 거대 언어 모델(LLM)을 활용하여 개방형 어휘 객체 탐지(OVD) 성능을 향상시키는 새로운 방법인 LED(LLM Enhanced Open-Vocabulary Object Detection)를 제시합니다. 기존의 수동으로 생성된 데이터의 편향성을 해결하기 위해, LLM의 디코더 계층의 은닉 상태를 직접 활용하여 시각적 기반 강화를 수행합니다. 영(zero)-초기화된 cross-attention adapter를 통해 LLM의 지식을 객체 탐지기에 효율적으로 전달하는 방식을 제안하며, LLM의 초기 계층의 은닉 상태가 공간-의미적 상관관계를 강하게 유지하여 기반 강화 작업에 유익함을 보여줍니다. 실험 결과, 제안된 방법은 복잡한 자유 형식 텍스트 질의에 대한 성능을 향상시키는 동시에 일반적인 범주에 대한 성능은 유지하는 것을 확인했습니다. Qwen2-0.5B와 Swin-T를 사용한 실험에서 Omnilabel 데이터셋 기준 GroundingDINO 대비 2.33%의 성능 향상을 보였으며, 더 큰 비전 인코더를 사용할 경우 6.22%까지 향상되었습니다. 다양한 adapter 구조, LLM 크기, 적응 계층 등에 대한 ablation study를 통해 설계의 유효성을 검증했습니다.

시사점, 한계점

시사점:
LLM의 은닉 상태를 활용하여 OVD 성능 향상을 효과적으로 달성하는 새로운 방법 제시.
수동 데이터 생성의 편향성 문제 해결에 기여.
적은 추가 연산량으로 상당한 성능 향상 달성.
다양한 실험을 통해 방법의 효율성 및 일반화 성능 검증.
한계점:
제안된 방법의 성능 향상은 특정 LLM과 비전 인코더 조합에 의존적일 수 있음.
더욱 다양하고 광범위한 데이터셋에 대한 추가적인 실험이 필요함.
LLM의 크기 증가에 따른 연산량 증가 및 비용 문제 고려 필요.
👍