Este artículo destaca que los modelos de visión-lenguaje (VLM) preentrenados presentan dificultades en la detección de anomalías de imágenes a escala cero (ZSAD) debido a la falta de sesgos inductivos locales necesarios para la predicción densa y a la inflexibilidad de sus paradigmas de fusión de características. Para abordar estas limitaciones, proponemos un marco de codiseño arquitectónico que mejora simultáneamente la representación de características y la fusión intermodal. En concreto, proponemos un adaptador de adaptación convolucional de bajo módulo (Conv-LoRA) con eficiencia de parámetros que inyecta sesgos inductivos locales para permitir representaciones de grano fino, y una puerta de enlace de fusión dinámica (DFG) que ajusta adaptativamente las indicaciones de texto utilizando el contexto visual. Experimentos exhaustivos en diversos puntos de referencia industriales y médicos demuestran una excelente precisión y robustez, lo que confirma la importancia de este codiseño sinérgico para la aplicación eficaz del modelo subyacente a tareas de percepción densa.