# Time Blindness: Why Video-Language Models Can't See What Humans Can?

### 저자

Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny

### 💡 개요

본 논문은 현재의 비전-언어 모델(VLM)이 비디오에서 공간 정보가 희미해질 때 순수하게 시간적인 패턴을 이해하는 데 어려움을 겪는다는 문제점을 지적합니다. 이를 해결하기 위해, 정보가 오직 노이즈와 유사한 프레임의 시간적 순서에만 인코딩된 새로운 벤치마크인 SpookyBench를 제안합니다. SpookyBench를 통해 인간은 98% 이상의 정확도로 패턴을 인식하지만, 최신 VLM은 0%의 정확도를 보여 심각한 성능 격차를 드러냈습니다.

### 🔑 시사점 및 한계

- 기존 VLM은 프레임 수준의 공간적 특징에 과도하게 의존하며, 시간적 단서로부터 의미를 추출하는 능력이 현저히 부족합니다.

- 낮은 공간적 신호 대 잡음비(SNR) 환경에서 훈련된 모델은 인간보다 시간적 이해 능력이 훨씬 빠르게 저하되며, 특히 미세한 시간적 추론이 필요한 작업에서 더욱 두드러집니다.

- 이 문제를 극복하기 위해서는 공간적 의존성과 시간적 처리를 분리하는 새로운 아키텍처나 훈련 패러다임이 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2505.24867)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).