Bài báo này nhằm mục đích trả lời câu hỏi liệu việc học ngôn ngữ thị giác (VL) có mang lại những thay đổi có ý nghĩa cho biểu diễn ngôn ngữ của các mô hình ngôn ngữ hay không. Các nghiên cứu trước đây đã cho thấy kết quả không nhất quán hoặc chỉ có sự khác biệt tối thiểu về mặt hành vi và biểu diễn. Bài báo này bắt đầu từ giả thuyết rằng việc học VL có thể có tác động đáng kể đến kiến thức từ vựng-khái niệm, đặc biệt là tổ chức phạm trù của các khái niệm. Bằng cách so sánh các cặp tối thiểu của mô hình ngôn ngữ chỉ văn bản (LM) và mô hình được huấn luyện VL (VLM), chúng tôi chỉ ra rằng các mô hình VL thường vượt trội hơn các mô hình chỉ văn bản trong các nhiệm vụ trả lời câu hỏi chỉ văn bản đòi hỏi sự hiểu biết phạm trù về các khái niệm được đề cập trong câu hỏi. Thông qua các phân tích hành vi và biểu diễn mục tiêu khác nhau, chúng tôi chỉ ra rằng LM và VLM không khác biệt đáng kể về kiến thức phạm trù tự thân, nhưng khác nhau về cách chúng biểu diễn các câu hỏi liên quan đến các khái niệm trong các mối quan hệ phạm trù hoặc không phạm trù. Điều này cho thấy rằng việc học VL bổ sung không làm thay đổi đáng kể kiến thức phạm trù tự thân, nhưng tăng cường việc sử dụng kiến thức này trong bối cảnh của một nhiệm vụ cụ thể, ngay cả khi cách trình bày nhiệm vụ hoàn toàn là ngôn ngữ.