본 논문은 심층 신경망을 이용한 표현 학습 및 언어 모델(LM)의 성공에 주목하며, 서로 다른 모달리티 간의 기저 연결을 토큰 또는 임베딩 수준에서의 정렬 및 매핑을 통해 구축하려는 많은 연구가 있지만, 대부분의 방법이 데이터 의존적이어서 페어링된 데이터가 부족한 음악과 같은 영역에서는 성능이 제한된다는 점을 지적합니다. 저자는 임베딩 정렬이 다모달 정렬의 표면적 수준에 불과하다고 주장하며, **언어 모델 매핑(LMM)**이라는 새로운 과제를 제시합니다. LMM은 서로 다른 모달리티의 LM이 동일한 기저 현상을 추적한다는 가정 하에, 한 영역의 LM에 내포된 본질을 다른 영역의 LM으로 매핑하는 방법을 의미합니다. 논문에서는 LMM의 기본 설정을 소개하고, 다모달 정렬의 더 깊은 측면을 밝히고 샘플 효율적인 학습을 달성하는 목표를 강조합니다. 음악이 LMM 연구에 이상적인 영역인 이유를 논의하고, 음악에서의 LMM을 감각 입력과 추상적 기호 모두를 기반으로 행동하는 것을 학습하는 더 일반적이고 어려운 과학적 문제와 연결하며, 마지막으로 고급 버전의 과제 문제 설정을 제시합니다.