# Adaptive Greedy Frame Selection for Long Video Understanding

### 저자

Yuning Huang, Xiaoyu Ji, Joseph Huang, Yichi Zhang, Fengqing Zhu

### 💡 개요

긴 비디오 이해를 위한 질문-응답(VQA) 작업에서 기존 프레임 샘플링 방식은 중요한 순간을 놓치거나 중복된 프레임에 집중하는 문제가 있었습니다. 본 연구는 고정된 프레임 예산 내에서 질문 관련성과 의미적 대표성을 동시에 최적화하는 질문 적응형 탐욕적 프레임 선택 방법을 제안합니다. 제안된 방법은 MLVU 데이터셋에서 기존 방법 대비 일관된 정확도 향상을 보여주며, 특히 제약된 예산에서 뛰어난 성능을 보였습니다.

### 🔑 시사점 및 한계

- 긴 비디오 VQA 작업에서 효율적인 프레임 선택을 통해 모델 성능을 향상시킬 수 있음을 보여줍니다.

- 질문의 특성에 따라 관련성과 대표성 간의 가중치를 동적으로 조절하는 새로운 접근 방식을 제시합니다.

- 1 FPS의 후보 풀을 사용하므로, 매우 짧은 순간에 일어나는 사건을 포착하는 데에는 한계가 있을 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2603.20180)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).