본 논문은 짧은 비디오에서의 구성적 추론 능력을 평가하기 위한 새로운 벤치마크 VELOCITI를 제안합니다. VELOCITI는 비디오-언어 모델(Video-LLM)의 에이전트, 액션, 그리고 이들의 연관성에 대한 이해를 분리하여 평가하는 Video-Language Entailment(VLE) 설정을 채택합니다. 특히, 정확한 분류를 요구하는 StrictVLE를 제안하고, 여러 모델들을 평가하여 최고 성능 모델조차도 인간 수준의 정확도에 훨씬 못 미침을 보여줍니다. 액션 이해가 에이전트 이해보다 뒤처지며, 비디오에 등장하는 개체를 사용하여 생성된 부정적인 캡션이 순수한 텍스트 조작으로 생성된 캡션보다 성능이 낮다는 것을 발견했습니다. 또한 ClassicVLE 및 객관식 평가의 한계를 보여주고 StrictVLE의 우수성을 강조하며, 다중 프레임의 시각적 입력을 필요로 하는 벤치마크의 특징을 통해 비디오-언어 구성적 추론 연구에 적합함을 검증합니다.