본 논문은 고해상도 비디오 이해를 위한 새로운 방법인 Dense Video Understanding (DVU)와 그에 맞는 새로운 벤치마크인 DIVE (Dense Information Video Evaluation)를 제시합니다. 기존의 비디오 대규모 언어 모델(VLLM)들은 저프레임 속도 샘플링으로 인해 세밀한 시간 정보를 놓치는 한계가 있었는데, DVU는 Gated Residual Tokenization (GRT)이라는 두 단계 프레임워크를 통해 토큰화 시간과 토큰 오버헤드를 줄여 고프레임 속도 비디오 이해를 가능하게 합니다. GRT는 움직임 보상을 이용하여 정적인 영역의 토큰화를 건너뛰고(Motion-Compensated Inter-Gated Tokenization), 정적 영역 내에서 토큰을 병합하여(Semantic-Scene Intra-Tokenization Merging) 효율성을 높입니다. DIVE 벤치마크를 통해 GRT가 기존 VLLM보다 성능이 우수하고 프레임 속도 증가에 따라 성능이 향상됨을 보여줍니다.