본 논문은 사전 훈련된 단일 모달리티 기반 모델을 정렬하여 제한된 양의 페어링된 데이터를 사용하여 멀티모달 모델을 구축하는 가능성을 탐구합니다. STRUCTURE라는 효과적인 정규화 기법을 도입하여 단일 모달리티 인코더의 잠재 공간의 인접 기하학을 보존합니다. 또한, 마지막 레이어를 정렬하는 것이 최적이 아닐 수 있음을 보여주고, 모달리티 간 표현 유사성이 가장 높은 레이어를 정렬하는 것이 유리함을 입증합니다. 이러한 기술들을 통해 적은 양의 데이터 (일반적으로 사용되는 데이터의 1% 미만)로 24개의 제로샷 이미지 분류 및 검색 벤치마크에서 상당한 성능 향상을 달성했습니다.