본 논문은 시각, 언어, 음성 등 다중 모달리티를 통해 세상을 경험하는 인간의 특성을 고려하여, 다양한 모달리티 간 공통점과 차이점을 데이터 중심 접근 방식으로 분석합니다. 대규모 이미지-텍스트 쌍으로 학습된 CLIP(Contrastive Language–Image Pre-training) 모델을 활용하여, 해석 가능한 단일 의미 특징을 추출하고 분석합니다. 기존 단일 모달리티 해석성 연구를 기반으로, 다중 모달리티 해석성 도구 및 측정법을 개발하여 CLIP이 학습한 특징을 분리 및 분석합니다. 특히, 모달리티 우세 점수(MDS)를 도입하여 각 CLIP 특징을 특정 모달리티에 할당하고, CLIP 특징을 더 해석 가능한 공간으로 매핑하여 시각 특징, 언어 특징, 시각-언어 특징의 세 가지 범주로 분류합니다. 이러한 데이터 기반 분류는 인간의 직관적인 다양한 모달리티 이해와 밀접하게 일치하며, 성별 감지의 편향 감소, 교차 모달리티 적대적 예제 생성, 텍스트-이미지 생성에서의 모달리티 특정 특징 제어 등 다양한 하위 작업에 도움이 됨을 보여줍니다. 결과적으로, 작업에 구애받지 않는 해석성 도구를 갖춘 대규모 다중 모달리티 모델은 다양한 데이터 모달리티 간 관계에 대한 귀중한 통찰력을 제공할 수 있음을 시사합니다.