每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

VideoMiner:通过基于树的组相对策略优化迭代地确定一小时视频的关键帧

Created by
  • Haebom

作者

曹新业、郭洪灿、钱嘉文、南国顺、王超、潘雨琪、侯天浩、王晓娟、高雨桐

VideoMiner:用于长期视频理解的分层关键帧提取模型

大纲

使用多模态大规模语言模型 (MM-LLM) 理解长视频,丰富了以人为本的人工智能应用。VideoMiner 模型能够迭代地对长视频进行分段、添加字幕和聚类,从而形成一个分层树形结构。该模型按时间顺序逐帧处理长视频,保持时间一致性,并有效解决大量冗余信息造成的干扰。为了准确定位关键帧,我们引入了基于树的组相关策略优化 (T-GRPO) 来指导 VideoMiner 的探索。T-GRPO 专为树形结构而设计,并根据问题在事件级别整合时空信息。

Takeaways, Limitations

在长时间视频理解任务上取得了优异的表现。
T-GRPO 允许模型自然地生成推理链。
设计的树木生长激素动态调整延伸深度,以提高准确性和效率。
(论文中没有明确提及Limitations)
👍