본 논문은 시각-언어(VL) 학습이 언어 모델의 언어적 표현에 의미 있는 변화를 가져오는지에 대한 질문에 답하고자 한다. 기존 연구들은 행동적 및 표상적 측면에서 일관성 없는 결과 또는 미미한 차이만을 보여주었다. 본 연구는 VL 학습이 특히 개념의 분류적 조직과 같은 어휘-개념적 지식에 상당한 영향을 미칠 수 있다는 가설에서 출발한다. 텍스트 전용 언어 모델(LM)과 VL 학습된 모델(VLM)의 최소 쌍을 비교하여, VL 모델이 질문에 언급된 개념의 분류적 이해를 요구하는 텍스트 전용 질문-응답 작업에서 텍스트 전용 모델보다 종종 성능이 우수함을 보여준다. 다양한 표적 행동 및 표상 분석을 통해 LM과 VLM이 분류적 지식 자체에는 유의미한 차이가 없지만, 분류적 관계 또는 비분류적 관계에 있는 개념을 포함하는 질문을 표현하는 방식에는 차이가 있음을 보여준다. 이는 추가적인 VL 학습을 통해 분류적 지식 자체가 크게 변하지는 않지만, 작업 제시 방식이 순전히 언어적이더라도 특정 작업의 맥락에서 이 지식의 활용을 향상시킨다는 것을 의미한다.