대규모 시각 언어 모델(VLM)의 정적 이미지에 대한 뛰어난 제로샷 추론 능력이 비디오 도메인으로 완전히 이전되지 못했다는 문제에서 시작하여, 본 논문은 사전 훈련된 VLM의 풍부한 의미적 사전 지식과 고전적인 머신러닝 알고리즘을 결합하여 종단간 훈련 없이 비디오 이해를 위한 새로운 프레임워크를 제시한다. 핵심 아이디어는 비디오 이해를 고차원 의미적 특징 공간 내의 자기 지도 시공간 클러스터링 문제로 재구성하는 것이다. 제안하는 파이프라인은 사전 훈련된 VLM의 고정된 시각 인코더를 사용하여 비디오 스트림을 의미적 특징 궤적으로 변환한다. 이후 Kernel Temporal Segmentation (KTS)을 활용하여 연속적인 특징 스트림을 의미적으로 일관된 이벤트 세그먼트로 분할하고, 이러한 세그먼트는 비지도 밀도 기반 클러스터링을 거쳐 비디오 전체에서 반복되는 거시적인 장면과 테마를 식별한다. 각 클러스터에서 대표적인 키프레임을 선택하고 VLM의 생성 능력을 활용하여 텍스트 설명을 생성함으로써, 이 프레임워크는 비디오 콘텐츠의 구조화된 다중 모달 요약을 자동적으로 생성한다. 이 접근 방식은 제로샷, 자동화된 비디오 콘텐츠 구조 분석을 위한 효과적이고 해석 가능한 모델 독립적 경로를 제공한다.