본 논문은 다중 모달 머신 러닝의 핵심 과제인 여러 모달리티 간의 결합 표현 학습에 대한 연구를 제시합니다. 기존의 방법론이 주로 쌍을 이루는 설정에 집중하거나 고차 상호 작용을 포착하는 데 한계가 있음을 지적하며, 개별 모달리티와 융합된 조합을 통합된 표현 공간에 함께 임베딩하는 Contrastive Fusion (ConFu) 프레임워크를 제안합니다. ConFu는 기존의 쌍별 대비 목적 함수에 융합된 모달리티 대비 항을 추가하여 고차 의존성을 포착하면서도 강력한 쌍별 대응 관계를 유지합니다. 합성 및 실제 다중 모달 벤치마크를 통해 ConFu의 성능을 평가하며, 교차 모달 보완성 활용, 고차 의존성 포착, 다중 모달 복잡성 확장에 대한 능력을 검증합니다.