본 논문은 기존 비디오-언어 모델(VLMs)의 평가 기준의 부족함을 지적하며, 장문 비디오 이해 능력을 평가하는 새로운 벤치마크인 Causal2Needles를 제안합니다. Causal2Needles는 긴 비디오의 서로 다른 두 지점에서 정보를 추출하여 통합적으로 이해하는 능력과 인간 행동의 인과 관계를 모델링하는 능력이라는 두 가지 중요한 능력을 평가합니다. 이는 '2-needle questions'라는 새로운 질문 유형을 통해 이루어지는데, 이는 장문 비디오 내 인과 관계가 있는 두 인간 행동 이벤트와 관련 설명 텍스트에서 정보를 추출해야 합니다. 텍스트 편향을 방지하기 위해, 답변을 포함하는 비디오 클립을 식별하는 질문과 해당 비디오 클립의 무관한 시각적 세부 사항에 대한 텍스트 설명을 요구하는 질문, 두 가지 형식으로 구성됩니다. 실험 결과, 기존 벤치마크에서 우수한 성능을 보이는 모델들도 2-needle 시각적 근거 찾기에는 어려움을 겪으며, 모델 성능은 두 지점 간의 거리와 음의 상관관계를 보이는 것으로 나타났습니다. 이는 현재 VLMs의 중요한 한계점을 보여줍니다.