每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

利用门控残差标记实现密集视频理解

Created by
  • Haebom

作者

张海潮、柴文浩、何瑞伟、李安、付云

大纲

本文介绍了一种新颖的高分辨率视频理解方法——密集视频理解 (DVU),以及一项新的基准——密集信息视频评估 (DIVE)。现有的大规模视频语言模型 (VLLM) 由于低帧率采样而存在细粒度时间信息丢失的问题。然而,DVU 通过一个名为门控残差标记化 (GRT) 的两步框架,减少了标记化时间和标记开销,从而实现了高帧率视频理解。GRT 利用运动补偿跳过静态区域的标记化(运动补偿门控间标记化),并合并静态区域内的标记(语义场景内标记化合并),以提高效率。DIVE 基准测试表明,GRT 的性能优于现有的 VLLM,并且随着帧率的提高,性能也随之提升。

Takeaways,Limitations

Takeaways:
DVU 和 GRT 被认为是理解高帧率视频的有效方法。
提出高密度时间推理的新基准:DIVE
修复现有 VLLM 的低帧率采样问题 Limitations
我们提出了一个可扩展的模型,其中性能随着帧速率的增加而线性增加。
Limitations:
DIVE 基准仍处于早期阶段,需要扩展以包含更多样化的视频数据和任务。
GRT 的性能提升有可能偏向于某些类型的视频数据。
需要进一步研究来确定当前提出的 GRT 的计算减少效率是否可以一致地应用于所有类型的视频。
👍