본 논문은 맥락 정보를 활용하여 비디오 이상 감지를 수행하는 새로운 접근 방식을 제시합니다. 기존의 이상 감지 모델이 새로운 상황에 대한 일반화 능력 부족 문제를 해결하기 위해, 시간적, 시각적 특징과 텍스트 정보를 실시간으로 연관시키는 맥락 인지 제로샷 이상 감지 모델을 제안합니다. 제안된 모델은 메모리-확장 파이프라인을 사용하여 시간 신호와 시각적 임베딩을 상호 주의 기법으로 연결하고, 맥락 유사성 점수를 기반으로 실시간 제로샷 이상 분류를 수행합니다. UCF-Crime 데이터셋에서 90.4% AUC, XD-Violence 데이터셋에서 83.67% AP를 달성하여 제로샷 모델 중 최고 성능을 보였으며, 높은 정밀도와 설명 가능성을 갖춘 실시간 추론이 가능함을 입증했습니다.