本文介绍了一种新颖的高分辨率视频理解方法——密集视频理解 (DVU),以及一项新的基准——密集信息视频评估 (DIVE)。现有的大规模视频语言模型 (VLLM) 由于低帧率采样而存在细粒度时间信息丢失的问题。然而,DVU 通过一个名为门控残差标记化 (GRT) 的两步框架,减少了标记化时间和标记开销,从而实现了高帧率视频理解。GRT 利用运动补偿跳过静态区域的标记化(运动补偿门控间标记化),并合并静态区域内的标记(语义场景内标记化合并),以提高效率。DIVE 基准测试表明,GRT 的性能优于现有的 VLLM,并且随着帧率的提高,性能也随之提升。