SpookyBench는 시계열 노이즈 프레임으로만 정보를 인코딩하여 생물학적 신호 전달이나 은밀한 통신과 같은 자연 현상을 반영하는 벤치마크입니다. 인간은 이러한 시퀀스에서 모양, 텍스트 및 패턴을 98% 이상의 정확도로 인식할 수 있지만, 최첨단 VLM은 0%의 정확도를 달성합니다. 이는 VLM이 프레임 수준의 공간적 특징에 과도하게 의존하고 시간적 단서에서 의미를 추출하는 데 어려움을 겪는다는 것을 보여줍니다. 낮은 공간 신호 대 잡음비(SNR) 데이터셋으로 훈련된 모델에서는 특히 세분화된 시간적 추론이 필요한 작업에서 인간의 지각보다 시간적 이해력이 더 빠르게 저하됩니다. 이러한 한계를 극복하려면 공간 의존성을 시간 처리에서 분리하는 새로운 아키텍처 또는 훈련 패러다임이 필요합니다. SpookyBench는 시간 패턴 인식 연구를 촉진하고 인간과 기계의 비디오 이해 간의 격차를 해소하기 위해 공개되었습니다. 데이터셋과 코드는 https://timeblindness.github.io/ 에서 이용 가능합니다.
시사점: 최첨단 VLM이 시간적 패턴 인식에 어려움을 겪는다는 것을 보여주는 새로운 벤치마크 SpookyBench를 제시합니다. 인간과 기계의 비디오 이해 능력 간의 차이를 명확히 드러냅니다. 시간적 패턴 인식 연구를 위한 새로운 방향을 제시합니다.
•
한계점: 현재 VLM 아키텍처가 시간적 정보 처리에 제한적임을 보여주지만, 이를 극복할 구체적인 해결책은 제시하지 않습니다. SpookyBench가 특정 유형의 시간적 패턴에만 집중되어 있어 일반화 가능성에 대한 추가 연구가 필요합니다. 낮은 SNR 데이터셋에서의 시간적 이해 저하 현상에 대한 더 자세한 분석이 필요합니다.