Cet article vise à déterminer si l'apprentissage du langage visuel (LV) modifie significativement la représentation linguistique des modèles de langage. Des études antérieures ont montré des résultats contradictoires ou des différences minimes dans les aspects comportementaux et représentationnels. Cet article part de l'hypothèse que l'apprentissage du LV peut avoir un impact significatif sur les connaissances lexico-conceptuelles, en particulier sur l'organisation catégorielle des concepts. En comparant des paires minimales de modèles de langage textuels (ML) et de modèles entraînés en LV (MLV), nous montrons que les modèles LV surpassent souvent les modèles textuels dans les tâches de questions-réponses textuelles exigeant une compréhension catégorielle des concepts mentionnés dans la question. Grâce à diverses analyses comportementales et représentationnelles ciblées, nous montrons que les ML et les MLV ne diffèrent pas significativement en termes de connaissances catégorielles en soi, mais diffèrent dans la manière dont ils représentent les questions impliquant des concepts dans des relations catégorielles ou non catégorielles. Cela suggère qu'un apprentissage supplémentaire du LV ne modifie pas significativement les connaissances catégorielles en soi, mais améliore leur utilisation dans le contexte d'une tâche spécifique, même si la présentation de la tâche est purement linguistique.