Este artículo presenta un marco integral (NLKI) para mejorar el rendimiento de modelos visuales de lenguaje a pequeña escala (sVLM) en la resolución de preguntas visuales de sentido común (VQA). NLKI funciona recuperando datos en lenguaje natural, generando explicaciones en lenguaje natural mediante un LLM y alimentando estas señales al sVLM. Aprovechando ColBERTv2 y las indicaciones ricas en entidades para la recuperación de datos, las explicaciones generadas reducen las alucinaciones y mejoran la precisión hasta en un 7 %. Además, mediante un ajuste adicional mediante una función de pérdida robusta al ruido, logramos una mejora de la precisión del 2,5 % en el conjunto de datos CRIC y del 5,5 % en el conjunto de datos AOKVQA, lo que eleva el rendimiento de sVLM como FLAVA al nivel de VLM de tamaño medio como Qwen-2 VL-2B y SmolVLM-2.5B. Este estudio demuestra que el conocimiento de sentido común basado en LLM es más efectivo que la recuperación de la base de conocimiento de sentido común, que el aprendizaje consciente del ruido mejora la estabilidad de los modelos pequeños en situaciones de aumento de conocimiento externo y que la inferencia de sentido común eficiente en cuanto a parámetros es posible incluso en modelos de 250 millones de parámetros.