Sign In

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

Created by
  • Haebom
Category
Empty

저자

Janghoon Cho, Jungsoo Lee, Munawar Hayat, Kyuwoong Hwang, Fatih Porikli, Sungha Choi

개요

장시간 비디오 이해에 대한 연구에서 대규모 멀티모달 모델(LMM)의 시각-언어 추론 능력을 활용하여 확장된 비디오 시퀀스를 처리하는 데 특화된 비디오-LMM의 발전이 이루어지고 있습니다. 그러나 이러한 모델은 긴 비디오 시퀀스에서 생성되는 방대한 양의 시각 토큰으로 인해 확장성에 심각한 제약이 있습니다. 이 논문은 이러한 과제를 해결하기 위해, 시설 위치 함수 기반의 효율적인 시각 토큰 압축 프레임워크인 FLoC을 제안합니다. FLoC은 정의된 시각 토큰 수 예산 내에서 작지만 매우 대표적이고 다양한 시각 토큰의 하위 집합을 신속하게 선택하는 접근 방식입니다. lazy greedy 알고리즘을 통합하여 토큰의 작고 압축된 하위 집합을 빠르게 선택함으로써 놀라운 효율성 향상을 달성하여 시각 토큰의 수를 대폭 줄이는 동시에 거의 최적의 성능을 보장합니다. 제안된 방법은 학습이 필요 없고, 모델과 쿼리에 독립적이므로 다양한 비디오-LLM 및 기존 워크플로우와 원활하게 통합할 수 있는 다목적 솔루션을 제공합니다. Video-MME, MLVU, LongVideoBench와 같은 대규모 벤치마크에 대한 광범위한 평가를 통해, 제안된 프레임워크는 최근의 압축 기술을 지속적으로 능가하여 긴 비디오 이해의 중요한 과제를 해결하는 데 있어 효과와 견고함뿐만 아니라 처리 속도의 효율성을 강조합니다.

시사점, 한계점

시사점:
긴 비디오 이해를 위한 효율적인 시각 토큰 압축 프레임워크(FLoC) 제안.
시설 위치 함수 기반으로, 작고 대표적인 토큰 하위 집합을 선택.
lazy greedy 알고리즘을 사용하여 효율성 향상.
훈련이 필요 없고, 모델 및 쿼리에 독립적인 다목적 솔루션 제공.
Video-MME, MLVU, LongVideoBench 벤치마크에서 기존 기술보다 우수한 성능 입증.
한계점:
논문에 구체적인 한계점 언급 없음. (논문 요약에 포함되지 않음)
👍