Este artículo pretende responder a la pregunta de si el aprendizaje del lenguaje visual (LV) produce cambios significativos en la representación lingüística de los modelos lingüísticos. Estudios previos han mostrado resultados inconsistentes o solo diferencias mínimas en aspectos comportamentales y representacionales. Este artículo parte de la hipótesis de que el aprendizaje del LV puede tener un impacto significativo en el conocimiento léxico-conceptual, especialmente en la organización categórica de los conceptos. Al comparar pares mínimos de modelos lingüísticos de solo texto (LM) y modelos entrenados con LV (VLM), mostramos que los modelos de LV a menudo superan a los modelos de solo texto en tareas de respuesta a preguntas de solo texto que requieren una comprensión categórica de los conceptos mencionados en la pregunta. A través de varios análisis comportamentales y representacionales objetivo, mostramos que los LM y los VLM no difieren significativamente en el conocimiento categórico per se, pero difieren en la forma en que representan preguntas que involucran conceptos en relaciones categóricas o no categóricas. Esto sugiere que el aprendizaje adicional del LV no cambia significativamente el conocimiento categórico per se, sino que mejora el uso de este conocimiento en el contexto de una tarea específica, incluso si la presentación de la tarea es puramente lingüística.