# Zoom In, Reason Out: Efficient Far-field Anomaly Detection in Expressway Surveillance Videos via Focused VLM Reasoning Guided by Bayesian Inference

### 저자

Xiaowei Mao, Bowen Sui, Weijie Zhang, Yawen Yang, Shengnan Guo, Shilong Zhao, Jiaqi Lin, Tingrui Wu, Youfang Lin, Huaiyu Wa

### 💡 개요

본 논문은 고속도로 CCTV 영상에서 발생하는 미묘한 이상 차량 움직임을 탐지하는 데 발생하는 어려움을 해결하기 위해 Vision-Language Model (VLM)과 베이즈 추론을 결합한 VIBES 프레임워크를 제안합니다. VIBES는 온라인 베이즈 추론을 통해 정상적인 주행 행동의 확률적 경계를 동적으로 업데이트하고, 이를 트리거로 활용하여 VLM이 이상 징후가 발생한 국소 영역에만 집중하도록 함으로써 주의력 희석 문제를 해결하고 계산 비용을 절감합니다. 이를 통해 다양한 고속도로 환경에서도 높은 탐지 정확도, 실시간 효율성 및 설명 가능성을 달성합니다.

### 🔑 시사점 및 한계

- **원거리 및 미묘한 이상 탐지 능력 향상:** 베이즈 추론 기반의 동적 정상 행동 모델링과 VLM의 국소적 집중을 통해 원거리에서 발생하는 미묘한 이상 움직임을 효과적으로 탐지할 수 있습니다.

- **계산 효율성 및 실시간 처리 능력 강화:** 전체 프레임 대신 트리거된 특정 영역만을 VLM이 처리함으로써 계산 부하를 대폭 줄여 실시간 처리가 가능하게 합니다.

- **다양한 환경에 대한 일반화 성능 확보:** 온라인 베이즈 추론 모듈이 지속적으로 정상 주행 행동을 학습하고 업데이트하므로, 다양한 고속도로 환경에 대한 일반화 성능이 향상됩니다.

- **트리거 메커니즘의 정확성 및 이상 탐지의 민감도:** 베이즈 추론 기반 트리거 메커니즘의 정확도가 VIBES의 전체적인 이상 탐지 성능에 미치는 영향, 그리고 매우 희귀하거나 예상치 못한 이상 행동에 대한 탐지 민감도 개선이 향후 과제로 남습니다.

[PDF 보기](https://arxiv.org/pdf/2604.23724)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
