Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models

Created by
  • Haebom

저자

Muchao Ye, Weiyang Liu, Pan He

개요

본 논문은 비디오 이상 탐지(VAD)에서 설명 가능성을 높이기 위해, 사전 훈련된 비전-언어 모델(VLMs)을 수정하지 않고도 이상 탐지 및 설명을 가능하게 하는 새로운 학습 프레임워크인 VERA를 제시합니다. VERA는 VAD에 필요한 복잡한 추론 과정을 더 단순하고 집중적인 안내 질문으로 분해하여, 이 질문들을 학습 가능한 매개변수로 취급하고, 거칠게 라벨링된 훈련 데이터를 사용하여 학습자 및 최적화자 VLM 간의 데이터 기반 언어적 상호 작용을 통해 최적화합니다. 추론 과정에서는 학습된 질문을 모델 프롬프트에 포함하여 VLM이 세그먼트 수준 이상 점수를 생성하도록 유도하고, 이를 장면 및 시간적 맥락을 융합하여 프레임 수준 점수로 정제합니다. 기존 방법들이 추가적인 모듈이나 재훈련을 필요로 하는 반면, VERA는 모델 매개변수 수정 없이 효율적으로 VAD를 수행합니다.

시사점, 한계점

시사점:
모델 매개변수 수정 없이 VLMs를 활용한 VAD 수행 및 설명 가능성 향상.
거칠게 라벨링된 데이터만으로 효과적인 학습 가능.
계산 비용 및 데이터 어노테이션 오버헤드 감소.
학습된 질문의 높은 적응성을 통한 성능 향상.
한계점:
제안된 VERA 프레임워크의 일반화 성능에 대한 추가적인 검증 필요.
다양한 유형의 이상 현상에 대한 로버스트한 성능 평가 필요.
학습된 질문의 해석 가능성에 대한 심층적인 분석 필요.
특정 유형의 비디오 데이터에 편향될 가능성 존재.
👍