본 논문은 대규모 언어 모델(LLM)이 텍스트 데이터만으로도 상당한 세계 지식, 추론 능력, 추상적인 의미 개념을 습득할 수 있음을 보여주는 연구 결과를 바탕으로, 음성 데이터로 학습된 모델에서도 이러한 개념이 등장하는지, 그리고 다중 모달리티(텍스트와 음성)로 공동 학습된 모델이 더 풍부하고 구조화된 의미 이해를 발전시키는지에 대한 질문을 제기합니다. 잠재 개념 분석(Latent Concept Analysis)이라는 비지도 학습 방법을 사용하여 음성 및 텍스트 모델의 개념 구조를 개별적으로 그리고 공동으로 분석하여 모달리티 간 의미 추상화 형성 과정을 조사합니다. 재현성을 위해 스크립트 및 기타 리소스를 공개합니다.