CLIP과 같은 자기 지도 학습 기반 대조 학습 모델은 많은 하위 작업에서 비전-언어 모델에 대한 새로운 기준을 설정했습니다. 하지만 이러한 모델은 텍스트와 이미지 간의 복잡하고 다면적인 관계를 간과하는 엄격한 일대일 매핑에 의존합니다. 본 논문에서는 CLIP 및 그 변형의 엄격한 일대일 매칭 프레임워크를 넘어서는 새로운 사전 훈련 방법인 RankCLIP을 제시합니다. 기존의 쌍별 손실을 리스트별 손실로 확장하고, 모달 내 및 모달 간 순위 일관성을 활용함으로써 RankCLIP은 정렬 프로세스를 개선하여 각 모달 내 및 모달 간의 미묘한 다대다 관계를 포착할 수 있도록 합니다. 광범위한 실험을 통해 다양한 하위 작업에서 RankCLIP의 효과를 입증하고, 특히 최첨단 방법보다 제로샷 분류에서 상당한 성능 향상을 달성하여 이러한 향상된 학습 프로세스의 중요성을 강조합니다.