최근의 폐쇄형 멀티모달 시스템은 획기적인 발전을 이루었지만, 블랙박스 아키텍처로 인해 세상을 이해하는 그들의 숨겨진 언어는 불투명하다. 본 논문에서는 입력 이미지 압축 및 재구성을 거치는 과정에서 시스템의 선호도 편향이 출력에 특정 변화를 유발하여 입력 개념의 동시 발생을 방해한다는 점에 착안, 이러한 편향을 이용하여 시스템의 숨겨진 언어를 연구한다. 멀티 라운드 "전화 게임"을 전략적으로 활용하여, 개념 동시 발생 빈도를 관찰함으로써 멀티모달 시스템의 개념 연결 강도를 정량적으로 조사한다. 또한, 전화 게임 프레임워크의 데이터베이스로 10,000개 이상의 개념 쌍으로 구성된 Telescope 데이터 세트를 기여한다. 이 전화 게임은 테스트 시간 확장이 가능하며, 반복적으로 실행하여 멀티모달 시스템 이해의 개념 연결에 대한 글로벌 맵을 구축할 수 있다. 본 연구를 통해 훈련에서 상속된 선호도 편향을 식별하고, 일반화 능력의 발전을 평가하며, 취약한 개념 연결을 위한 보다 안정적인 경로를 발견할 수 있다. 더 나아가, 추론 LLM을 사용하여 텍스트 및 시각적 유사성을 초월하는 예상치 못한 개념 관계를 밝혀내고 멀티모달 시스템이 세상을 어떻게 이해하고 시뮬레이션하는지 추론한다. 본 연구는 멀티모달 시스템의 숨겨진 언어에 대한 새로운 시각을 제시하고, 멀티모달 시스템의 해석 가능성 및 제어 가능성에 대한 향후 연구의 기반을 마련한다.