본 논문은 시계열 기반 모델(TSFM) 연구에서 실제 세계 데이터 부족 문제를 해결하기 위해, 실제 비디오에서 광학 흐름을 사용하여 추출한 시계열 데이터인 REAL-V-TSFM 데이터셋을 제안한다. 기존 시계열 데이터셋의 일반화 성능에 대한 논쟁을 해결하고자, REAL-V-TSFM을 활용하여 최첨단 TSFM의 제로샷 예측 성능을 평가하고, 기존 벤치마크에서는 우수한 성능을 보인 모델들이 제안된 데이터셋에서 성능 저하를 보임을 확인했다. 이는 기존 모델의 제한적인 일반화 능력을 시사하며, 비디오 기반 시계열 데이터 추출 파이프라인의 효과를 입증한다.