Sign In

FOCUS: Efficient Keyframe Selection for Long Video Understanding

Created by
  • Haebom
Category
Empty

저자

Zirui Zhu, Hailun Xu, Yang Luo, Yong Liu, Kanchan Sarkar, Zhenheng Yang, Yang You

개요

멀티모달 대규모 언어 모델(MLLM)은 이미지와 비디오 프레임을 시각적 토큰으로 표현하지만, 긴 비디오의 경우 토큰 예산이 실용적인 한계를 넘어선다. 본 논문은 훈련 없이 모델에 구애받지 않는 키프레임 선택 모듈인 FOCUS(Frame-Optimistic Confidence Upper-bound Selection)를 제안한다. FOCUS는 키프레임 선택을 조합적 순수 탐사(CPE) 문제로 공식화하여, 짧은 시간적 클립을 팔로 간주하고, 경험적 평균과 Bernstein 신뢰 반경을 사용하여 정보적 영역을 식별하면서 불확실한 영역에 대한 탐색을 유지한다. 그 결과 두 단계의 탐사-활용 절차를 통해 정확도 향상을 달성하며, 특히 20분 이상의 긴 비디오에서 LongVideoBench 정확도에서 11.9% 향상을 보인다.

시사점, 한계점

시사점:
훈련이 필요 없는, 모델에 구애받지 않는 키프레임 선택 모듈을 제안하여 긴 비디오 이해를 위한 확장성을 제공한다.
엄격한 토큰 예산 내에서 쿼리와 관련된 프레임을 선택하여 정확도를 향상시킨다.
두 단계의 탐사-활용 절차를 통해 정보적 영역을 효율적으로 식별하고 탐색한다.
LongVideoBench와 같은 긴 비디오 벤치마크에서 상당한 정확도 향상을 보인다.
한계점:
제안된 방법의 일반화 능력과 다른 벤치마크 및 데이터셋에서의 성능 검증이 필요할 수 있다.
계산 비용과 속도에 대한 자세한 분석이 필요하다.
구체적인 하이퍼파라미터 설정 및 최적화에 대한 연구가 필요할 수 있다.
👍