每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

TimeScope:面向任务的长视频时间基础

Created by
  • Haebom

作者

刘向瑞、秦明浩、舒彦、梁正阳、杨天、陈杰森、赵博、刘铮

任务导向的时间基础(ToTG)

大纲

在本文中,我们介绍了面向任务的时间定位 (ToTG),这是一个新颖的问题,旨在识别长视频中包含执行特定任务所需信息的时间间隔。为此,我们提出了 ToTG Bench,这是一个用于评估 ToTG 性能的综合基准。此外,为了应对长视频处理的挑战,我们提出了基于增量推理的全新框架 TimeScope。TimeScope 首先识别可能包含关键时刻的粗时间间隔,并通过细粒度的时刻分割来细化这些时间间隔。最后,我们构建了高质量的数据集 ToTG Pile,以增强 TimeScope 的增量时间定位能力。实验结果表明,TimeScope 的性能始终优于现有的时间定位方法和多级学习模型 (MLLM)。

Takeaways, Limitations

Takeaways:
提出了一种称为面向任务的时间基础(ToTG)的新问题定义和基准。
开发 TimeScope 框架,以有效地找到长视频中的关键时刻。
构建 ToTG Pile 数据集以提高 TimeScope 性能
展示 TimeScope 在各种设置中优于现有方法的性能。
Limitations:
论文中没有具体提及Limitations。
👍