본 논문은 대규모 시각-텍스트 데이터로 학습된 거대 언어 모델(LLM)을 활용하여 개방형 어휘 객체 탐지(OVD) 성능을 향상시키는 새로운 방법인 LED(LLM Enhanced Open-Vocabulary Object Detection)를 제시합니다. 기존의 수동으로 생성된 데이터의 편향성을 해결하기 위해, LLM의 디코더 계층의 은닉 상태를 직접 활용하여 시각적 기반 강화를 수행합니다. 영(zero)-초기화된 cross-attention adapter를 통해 LLM의 지식을 객체 탐지기에 효율적으로 전달하는 방식을 제안하며, LLM의 초기 계층의 은닉 상태가 공간-의미적 상관관계를 강하게 유지하여 기반 강화 작업에 유익함을 보여줍니다. 실험 결과, 제안된 방법은 복잡한 자유 형식 텍스트 질의에 대한 성능을 향상시키는 동시에 일반적인 범주에 대한 성능은 유지하는 것을 확인했습니다. Qwen2-0.5B와 Swin-T를 사용한 실험에서 Omnilabel 데이터셋 기준 GroundingDINO 대비 2.33%의 성능 향상을 보였으며, 더 큰 비전 인코더를 사용할 경우 6.22%까지 향상되었습니다. 다양한 adapter 구조, LLM 크기, 적응 계층 등에 대한 ablation study를 통해 설계의 유효성을 검증했습니다.