본 논문은 다중 감각 통합을 통한 인간의 지각 능력을 모방하여 다중 모달 자기 지도 학습을 위한 대조 학습 방식을 제시합니다. 기존 대조 학습 방식은 각 모달리티를 동일한 개체의 다른 관점으로 간주하여 공유된 표현 공간에서 서로 다른 모달리티의 특징을 정렬하는 데 국한됩니다. 본 논문에서는 CoMM이라는 새로운 대조 학습 전략을 제안합니다. CoMM은 모달리티 간의 상호 작용을 단일 다중 모달 공간에서 가능하게 하며, 모달리티 간 또는 모달리티 내 제약을 부과하는 대신 증강된 다중 모달 특징 간의 상호 정보를 극대화하여 다중 모달 표현을 정렬합니다. 이론적 분석을 통해 공유, 시너지 및 고유 정보 항이 자연스럽게 나타나며, 이를 통해 중복을 넘어선 다중 모달 상호 작용을 추정할 수 있음을 보여줍니다. 제어된 환경과 실제 환경 모두에서 CoMM을 테스트하여, 제어된 환경에서는 중복, 고유 및 시너지 정보를 효과적으로 포착하고, 실제 환경에서는 복잡한 다중 모달 상호 작용을 학습하여 7개의 다중 모달 벤치마크에서 최첨단 결과를 달성함을 보여줍니다. 코드는 GitHub에서 공개됩니다.