Los modelos de lenguaje a gran escala (LLM) entrenados con datos de visión y lenguaje a gran escala pueden mejorar la detección de objetos de vocabulario abierto (OVD) mediante datos de entrenamiento sintéticos. Sin embargo, las canalizaciones diseñadas manualmente suelen introducir sesgos y pueden sobreajustarse a indicaciones específicas. En este artículo, presentamos un método sistemático para mejorar la verdad fundamental visual aprovechando la capa decodificadora del LLM. Introducimos un adaptador de atención cruzada de inicialización cero que permite una fusión eficiente del conocimiento del LLM al detector de objetos, lo que da como resultado un enfoque novedoso denominado Detección de Objetos de Vocabulario Abierto Mejorada por LLM (LED). Observamos que las capas intermedias del LLM ya codifican semántica espacial rica, y que la mayor parte de la mejora del rendimiento se puede lograr aplicando solo las capas iniciales. Utilizando Swin-T como codificador de visión, Qwen2-0.5B + LED mejora GroundingDINO en un 3,82 % en OmniLabel con solo un 8,7 % adicional en GFLOP. Con una estructura de visión más amplia, la mejora aumenta al 6,22 %. El diseño se valida aún más a través de extensos experimentos con deformación del adaptador, escala LLM y profundidad de fusión.