대규모 비전-언어 데이터로 학습된 거대 언어 모델(LLM)은 합성 훈련 데이터를 통해 개방형 어휘 객체 탐지(OVD)를 향상시킬 수 있지만, 수작업 파이프라인은 종종 편향을 도입하고 특정 프롬프트에 과적합될 수 있습니다. 본 논문에서는 LLM의 디코더 계층을 활용하여 시각적 근거를 향상시키는 체계적인 방법을 제시합니다. LLM에서 객체 탐지기로 효율적인 지식 융합을 가능하게 하는 제로 초기화된 크로스 어텐션 어댑터를 도입하여 LED(LLM Enhanced Open-Vocabulary Object Detection)라는 새로운 접근 방식을 제시합니다. 중간 LLM 계층은 이미 풍부한 공간 의미를 인코딩하고 있으며, 초기 계층만 적용해도 대부분의 이점을 얻을 수 있음을 발견했습니다. Swin-T를 비전 인코더로 사용하여 Qwen2-0.5B + LED는 OmniLabel에서 GroundingDINO를 3.82% 향상시키며, 추가 GFLOPs는 8.7%에 불과합니다. 더 큰 비전 백본을 사용하면 향상이 6.22%까지 증가합니다. 어댑터 변형, LLM 규모 및 융합 깊이에 대한 광범위한 실험을 통해 설계의 타당성을 확인했습니다.