장시간 비디오 이해에 대한 연구에서 대규모 멀티모달 모델(LMM)의 시각-언어 추론 능력을 활용하여 확장된 비디오 시퀀스를 처리하는 데 특화된 비디오-LMM의 발전이 이루어지고 있습니다. 그러나 이러한 모델은 긴 비디오 시퀀스에서 생성되는 방대한 양의 시각 토큰으로 인해 확장성에 심각한 제약이 있습니다. 이 논문은 이러한 과제를 해결하기 위해, 시설 위치 함수 기반의 효율적인 시각 토큰 압축 프레임워크인 FLoC을 제안합니다. FLoC은 정의된 시각 토큰 수 예산 내에서 작지만 매우 대표적이고 다양한 시각 토큰의 하위 집합을 신속하게 선택하는 접근 방식입니다. lazy greedy 알고리즘을 통합하여 토큰의 작고 압축된 하위 집합을 빠르게 선택함으로써 놀라운 효율성 향상을 달성하여 시각 토큰의 수를 대폭 줄이는 동시에 거의 최적의 성능을 보장합니다. 제안된 방법은 학습이 필요 없고, 모델과 쿼리에 독립적이므로 다양한 비디오-LLM 및 기존 워크플로우와 원활하게 통합할 수 있는 다목적 솔루션을 제공합니다. Video-MME, MLVU, LongVideoBench와 같은 대규모 벤치마크에 대한 광범위한 평가를 통해, 제안된 프레임워크는 최근의 압축 기술을 지속적으로 능가하여 긴 비디오 이해의 중요한 과제를 해결하는 데 있어 효과와 견고함뿐만 아니라 처리 속도의 효율성을 강조합니다.