본 논문은 비디오 이상 탐지(VAD) 분야의 평가 방식에 대한 문제점을 지적하고, 이를 개선하기 위한 새로운 평가 방법들을 제시합니다. 기존 VAD 연구는 주로 모델 구조와 학습 전략에 집중되어 왔으나, 평가 지표 및 벤치마크에는 충분한 관심을 기울이지 못했습니다. 본 논문에서는 기존 평가 방식의 세 가지 주요 한계점, 즉 1) 단일 주석 편향에 대한 민감성, 2) 이상 현상의 조기 탐지를 충분히 반영하지 못하는 점, 3) 장면 과적합 문제를 평가할 수 있는 벤치마크 부족을 밝힙니다. 이러한 한계를 해결하기 위해, 다중 주석에 대한 평균 AUC/AP 지표, 조기 및 정확한 이상 탐지를 보상하는 지연 시간 고려 평균 정밀도(LaAP) 지표, 그리고 장면 과적합을 평가하기 위한 두 개의 어려운 정상 벤치마크(UCF-HN, MSAD-HN)를 제안합니다. 마지막으로, 제안된 평가 방법을 사용하여 10가지 최첨단 VAD 기법의 성능을 비교 분석하고, 미래 VAD 모델 개발에 대한 새로운 관점을 제공합니다.