본 논문은 비디오-텍스트 조합성 이해를 위한 벤치마크 및 학습 프레임워크인 VideoComp를 제시합니다. 기존의 정적 이미지-텍스트 조합성이나 단일 이벤트 비디오에 초점을 맞춘 벤치마크와 달리, VideoComp는 연속적인 다중 이벤트 비디오에서의 정렬을 목표로 합니다. ActivityNet-Captions 및 YouCook2와 같은 시간적으로 지역화된 이벤트 캡션이 있는 비디오-텍스트 데이터셋을 활용하여 ActivityNet-Comp와 YouCook2-Comp라는 두 개의 조합 벤치마크를 구성합니다. 순서 변경, 동작 단어 교체, 부분 캡션, 복합적인 방해 등 미묘한 시간적 방해를 가진 어려운 부정적 샘플을 생성하여 확장된 응집력 있는 비디오-텍스트 시퀀스에서 모델의 조합 민감도를 포괄적으로 테스트합니다. 모델 성능 향상을 위해 시간적으로 정확한 쌍과의 정렬을 강화하고 점진적으로 방해가 심해지는 쌍에 대해 페널티를 부과하여 미세한 조합 학습을 장려하는 계층적 쌍 비교 선호도 손실을 제안합니다. 밀집적으로 주석이 달린 비디오 데이터의 제한된 가용성을 완화하기 위해 짧은 비디오-캡션 쌍을 연결하여 다중 이벤트 시퀀스를 시뮬레이션하는 사전 훈련 전략을 도입합니다. 벤치마크에서 비디오-텍스트 기본 모델과 대규모 다중 모달 모델(LMM)을 평가하여 조합성에서 강점과 개선 영역을 모두 파악합니다. 전반적으로 본 연구는 미세하고 시간적으로 일관된 비디오-텍스트 정렬을 달성하는 데 있어 모델 기능을 평가하고 향상시키기 위한 포괄적인 프레임워크를 제공합니다.