본 논문은 다중 모달 표현 학습에서 모달 간의 명시적 정렬이 아닌, 대규모 독립적으로 학습된 단일 모달 모델 간의 암묵적 정렬에 초점을 맞춥니다. 기존 연구는 주로 특정 학습 목표와 모델 아키텍처를 통해 모달 간의 표현을 명시적으로 정렬하는 데 집중했으나, 최근 연구는 대규모 고성능 단일 모달 모델들이 서로 암묵적으로 정렬될 수 있음을 발견했습니다. 본 연구는 이러한 암묵적 정렬의 발생 시점과 원인, 그리고 정렬이 성능의 신뢰할 만한 지표인지에 대한 질문을 제기하며, 광범위한 실험적 조사를 통해 정렬의 발생과 성능과의 관계가 데이터 특성 (모달 간 유사성, 과잉 및 고유 정보의 균형 등)에 따라 달라짐을 보여줍니다. 따라서 모달 간의 정렬이 항상 유익한 것은 아니며, 데이터셋과 과제에 따라 성능에 미치는 영향이 다를 수 있음을 시사합니다.