본 논문은 기존의 다중 모달 임베딩 모델이 InfoNCE 손실 함수를 사용하여 훈련될 때 양성 쌍과 음성 쌍 간의 유사도 분포가 높은 중복을 보여 어려운 음성 쌍을 효과적으로 구별하는 데 어려움을 겪는다는 점을 지적합니다. 이 문제를 해결하기 위해, 본 논문에서는 음성 쌍의 판별 난이도에 따라 임베딩 모델의 표현 학습을 동적으로 개선하는 단순하면서도 효과적인 프레임워크를 제안합니다. LLaVE라는 일련의 모델을 훈련하여 MMEB 벤치마크에서 평가한 결과, 기존 최고 성능을 뛰어넘는 성능을 달성하고 확장성과 효율성이 뛰어남을 보였습니다. 특히, LLaVE-2B는 기존 최고 성능의 7B 모델을 능가했으며, LLaVE-7B는 추가적으로 6.2점의 성능 향상을 달성했습니다. 또한 이미지-텍스트 데이터로 훈련되었지만 제로샷 방식으로 텍스트-비디오 검색 작업에도 적용 가능하며 우수한 성능을 보여 다른 임베딩 작업으로의 전이 가능성을 보여줍니다.