본 논문은 비디오 이상 탐지(VAD)에서 설명 가능성을 높이기 위해, 사전 훈련된 비전-언어 모델(VLMs)을 수정하지 않고도 이상 탐지 및 설명을 가능하게 하는 새로운 학습 프레임워크인 VERA를 제시합니다. VERA는 VAD에 필요한 복잡한 추론 과정을 더 단순하고 집중적인 안내 질문으로 분해하여, 이 질문들을 학습 가능한 매개변수로 취급하고, 거칠게 라벨링된 훈련 데이터를 사용하여 학습자 및 최적화자 VLM 간의 데이터 기반 언어적 상호 작용을 통해 최적화합니다. 추론 과정에서는 학습된 질문을 모델 프롬프트에 포함하여 VLM이 세그먼트 수준 이상 점수를 생성하도록 유도하고, 이를 장면 및 시간적 맥락을 융합하여 프레임 수준 점수로 정제합니다. 기존 방법들이 추가적인 모듈이나 재훈련을 필요로 하는 반면, VERA는 모델 매개변수 수정 없이 효율적으로 VAD를 수행합니다.