# VidEvent: A Large Dataset for Understanding Dynamic Evolution of Events in Videos

### 저자

Baoyu Liang, Qile Su, Shoutai Zhu, Yuchen Liang, Chao Tong

### 개요

본 논문은 비디오 내 이벤트 이해의 어려움을 해결하기 위해, 이벤트 스크립트를 추출하고 이를 이용하여 예측하는 새로운 과제를 제시합니다.  이를 위해 23,000개 이상의 잘 라벨링된 이벤트를 포함하는 대규모 데이터셋 VidEvent를 소개합니다. VidEvent는 자세한 이벤트 구조, 광범위한 계층 구조, 영화 요약 비디오에서 추출된 논리적 관계를 특징으로 하며, 꼼꼼한 주석 작업을 통해 고품질의 신뢰할 수 있는 이벤트 데이터를 보장합니다.  또한, 아키텍처와 성능 지표에 대한 자세한 설명을 제공하는 포괄적인 기준 모델을 제시하여 향후 연구를 위한 벤치마크 역할을 합니다.  VidEvent 및 기준 모델에 대한 분석을 통해 비디오 이벤트 이해 발전에 대한 데이터셋의 잠재력을 강조하고 혁신적인 알고리즘과 모델 탐색을 장려합니다. 데이터셋과 관련 자료는 [www.videvent.top에서](http://www.videvent.top%EC%97%90%EC%84%9C) 공개적으로 이용 가능합니다.

### 시사점, 한계점

- **시사점:**

    - 대규모, 고품질 비디오 이벤트 데이터셋 VidEvent 제공을 통해 비디오 이벤트 이해 연구 발전에 기여.

    - 다양한 이벤트 구조, 계층 구조, 논리적 관계를 포함하는 데이터셋의 풍부한 정보 제공.

    - 기준 모델 제공을 통해 향후 연구의 비교 및 개선을 용이하게 함.

    - 비디오 이벤트 이해 분야의 새로운 연구 방향 제시.

- **한계점:**

    - 데이터셋의 크기가 비록 크지만, 실제 세계의 모든 이벤트 유형을 완벽하게 포괄하지 못할 가능성 존재.

    - 기준 모델의 성능이 아직 완벽하지 않을 수 있으며, 더욱 개선될 여지가 있음.

    - 데이터셋의 편향성(예: 특정 유형의 이벤트 과다 대표)에 대한 분석 및 해결 방안 필요.

    - 데이터셋의 주석 품질에 대한 객관적인 평가 및 검증 필요.

[PDF 보기](https://arxiv.org/pdf/2506.02448)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).