본 논문은 사용자가 제공한 텍스트 설명과 관련하여 비디오 콘텐츠의 세그먼트 주제 관련성을 정량화하기 위해 설계된 Learned User Significance Tracker (LUST) 프레임워크를 소개합니다. LUST는 비디오 프레임의 시각적 단서와 음성 인식(ASR)을 통해 오디오 트랙에서 추출한 텍스트 정보를 통합하는 다중 모달 분석 파이프라인을 활용합니다. 핵심 혁신은 대규모 언어 모델(LLM)을 사용하는 계층적 2단계 관련성 점수 매기기 메커니즘입니다. 초기 "직접 관련성" 점수($S_{d,i}$)는 주제에 대한 즉각적인 시각 및 청각 콘텐츠를 기반으로 개별 세그먼트를 평가합니다. 이어서 "맥락적 관련성" 점수($S_{c,i}$)는 이전 주제 점수의 시간적 진행 상황을 통합하여 평가를 개선하여 모델이 진화하는 내러티브를 이해할 수 있도록 합니다. LUST 프레임워크는 사용자 정의 중요도에 대한 미묘하고 시간에 민감한 측정값을 제공하고, 시각화된 관련성 점수와 포괄적인 분석 로그가 포함된 주석이 달린 비디오를 출력하는 것을 목표로 합니다.