CLIP과 같은 다중 모달 인코더는 제로샷 이미지 분류 및 교차 모달 검색과 같은 작업에서 뛰어난 성능을 보이지만, 과도한 훈련 데이터를 필요로 합니다. 본 논문에서는 제한된 데이터를 사용하여 다중 모달 인코더를 복제하는 데 두 개의 단일 모달 인코더를 사용하는 정준 유사도 분석(Canonical Similarity Analysis, CSA)을 제안합니다. CSA는 새로운 유사도 점수를 사용하여 다중 모달 정보만 유지하면서 단일 모달 특징을 다중 모달 공간으로 매핑합니다. CSA는 단일 모달 인코더의 추론과 3차 복잡도 행렬 분해만 포함하므로 광범위한 GPU 기반 모델 훈련이 필요 없습니다. 실험 결과, CSA는 ImageNet 분류 및 오정보 뉴스 캡션 감지에서 사전 훈련된 단일 모달 인코더를 제공받은 경우 모달 간의 연결에 필요한 다중 모달 데이터 쌍이 50,000배 적으면서도 CLIP보다 성능이 우수한 것으로 나타났습니다. 또한 CSA는 단일 모달 특징을 다중 모달 특징으로 매핑하는 최첨단 방법을 능가합니다. 본 논문은 이미지 및 텍스트를 넘어서는 모달에서 CSA의 성능을 보여주며, 라이다와 텍스트와 같이 제한된 쌍으로 된 다중 모달 데이터이지만 풍부한 쌍으로 되지 않은 단일 모달 데이터를 가진 미래의 모달 쌍을 위한 길을 열어줍니다.