Les modèles de langage à grande échelle (LLM) entraînés sur des données de langage visuel à grande échelle peuvent améliorer la détection d'objets à vocabulaire ouvert (OVD) grâce à des données d'entraînement synthétiques. Cependant, les pipelines artisanaux introduisent souvent des biais et peuvent suradapter des invites spécifiques. Dans cet article, nous présentons une méthode systématique pour améliorer la vérité terrain visuelle en exploitant la couche décodeur du LLM. Nous introduisons un adaptateur d'attention croisée à initialisation nulle qui permet une fusion efficace des connaissances du LLM vers le détecteur d'objets, aboutissant à une nouvelle approche appelée LLM Enhanced Open-Vocabulary Object Detection (LED). Nous constatons que les couches LLM intermédiaires codent déjà une sémantique spatiale riche et que l'essentiel de l'amélioration des performances peut être obtenu en appliquant uniquement les couches initiales. En utilisant Swin-T comme encodeur de vision, Qwen2-0.5B + LED améliore GroundingDINO de 3,82 % sur OmniLabel, avec seulement 8,7 % supplémentaires en GFLOP. Avec une structure de vision plus large, l'amélioration passe à 6,22 %. La conception est ensuite validée par des expériences approfondies avec la déformation de l'adaptateur, l'échelle LLM et la profondeur de fusion.