본 논문은 장편 비디오를 이해하는 Video-Language Models (VLMs)의 능력을 평가하는 데 중점을 둡니다. 특히, 기존 벤치마크에서 충분히 다루지 못하는 두 가지 중요한 능력, 즉 (1) 긴 비디오 내 두 개의 서로 다른 위치에서 정보를 추출하고 이를 함께 이해하는 능력 (두 개의 니들), (2) 인간 행동의 원인과 결과에 따른 세상 모델링 능력을 평가하기 위한 새로운 벤치마크 Causal2Needles를 제안합니다. Causal2Needles는 비인과적 one-needle, 인과적 one-needle, 인과적 two-needle 질문을 사용하여 이러한 능력을 평가합니다. 특히 가장 복잡한 질문 유형인 인과적 two-needle 질문은 긴 비디오에서 원인과 결과 이벤트를 모두 추출하고 관련 내레이션 텍스트를 이해해야 합니다. 텍스트 편향을 방지하기 위해 정답이 포함된 비디오 클립을 찾는 질문 형식과 해당 비디오 클립의 시각적 세부 사항을 언어적으로 설명하는 두 가지 보완적인 질문 형식을 도입했습니다.