F$^3$Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from Videos
Created by
Haebom
저자
Zhaoyu Liu, Kan Jiang, Murong Ma, Zhe Hou, Yun Lin, Jin Song Dong
개요
본 논문은 비디오 분석 및 다중 모달 LLM에서 빠르고, 빈번하며, 세밀한(F³ ) 이벤트 분석의 어려움을 다룹니다. 기존 방법들은 모션 블러 및 미묘한 시각적 차이와 같은 문제로 인해 모든 F³ 기준을 충족하는 이벤트를 높은 정확도로 식별하는 데 어려움을 겪습니다. 이를 해결하기 위해, 정밀한 F³ 이벤트 탐지를 위한 비디오 데이터셋으로 구성된 벤치마크인 F³Set을 제시합니다. F³Set의 데이터셋은 일반적으로 1,000개 이상의 이벤트 유형과 정확한 타임스탬프를 포함하고 다단계 세분성을 지원하는 광범위한 규모와 종합적인 세부 정보를 특징으로 합니다. 현재 F³Set에는 여러 스포츠 데이터셋이 포함되어 있으며, 이 프레임워크는 다른 애플리케이션으로도 확장될 수 있습니다. 기존 기술의 상당한 과제를 드러내는 F³Set에서 인기 있는 시간적 동작 이해 방법을 평가하고, F³ 이벤트 탐지를 위한 새로운 방법인 F³ED를 제안하여 우수한 성능을 달성했습니다. 데이터셋, 모델 및 벤치마크 코드는 https://github.com/F3Set/F3Set 에서 이용 가능합니다.