Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Knowledge-Guided Textual Reasoning for Explainable Video Anomaly Detection via LLMs

Created by
  • Haebom
Category
Empty

저자

Hari Lee

개요

본 논문은 텍스트 기반 설명 가능한 비디오 이상 탐지(TbVAD)를 소개한다. 이는 텍스트 도메인 내에서 이상 탐지 및 설명을 수행하는 언어 기반의 약지도 비디오 이상 탐지 프레임워크이다. 기존의 시각적 특징에 의존하는 WSVAD 모델과 달리, TbVAD는 언어를 통해 비디오 의미론을 표현하여 해석 가능하고 지식 기반 추론을 가능하게 한다. 프레임워크는 (1) 비전-언어 모델을 사용하여 비디오 내용을 세분화된 캡션으로 변환, (2) 캡션을 네 개의 의미론적 슬롯(동작, 객체, 컨텍스트, 환경)으로 구성하여 구조화된 지식 구축, (3) 이상 결정에 가장 크게 기여하는 의미론적 요인을 밝히는 슬롯별 설명을 생성하는 세 단계로 작동한다. UCF-Crime 및 XD-Violence 벤치마크에서 TbVAD를 평가하여 텍스트 기반 지식 추론이 실제 감시 시나리오에서 해석 가능하고 신뢰할 수 있는 이상 탐지를 제공함을 입증한다.

시사점, 한계점

시사점:
텍스트 기반 설명을 통해 이상 탐지 결과의 해석 가능성 향상
시각적 특징에 의존하지 않고 텍스트를 사용하여 이상 탐지 수행
지식 기반 추론을 통해 이상 탐지의 신뢰성 향상
실제 감시 시나리오에 적용 가능성 입증
한계점:
구체적인 한계점은 논문 요약에서 명시되지 않음 (추가 정보 필요)
👍