每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

COLT:通过持续使用工具增强视频大型语言模型

Created by
  • Haebom

作者

刘雨阳、施新元、梁晓丹

大纲

基于利用大规模语言模型 (LLM) 的视频理解研究的进展,本文提出了一种视频 LLM,专注于探索使用预训练专家模型(工具)的能力。现有方法利用闭源 LLM 或通过指令调整来微调工具使用情况,但它们假设工具库固定,难以推广到实时且不断发展的工具数据集。为了解决这个问题,我们提出了一种通过持续工具使用 (COLT) 来增强开源视频 LLM 的方法,该方法可以从连续的工具流中自动获取工具使用技能,而不会“忘记”先前学习的工具。COLT 将可学习的工具码本与特定于工具的记忆系统相结合,并根据用户指令与码本内工具特征之间的相似性动态选择相关工具。我们利用以视频为中心的工具使用指令调整数据集 VideoToolBench 来发挥视频 LLM 在工具使用方面的潜力,并在现有视频 LLM 基准测试和 VideoToolBench 数据集上展示了最佳性能。

Takeaways, Limitations

Takeaways:
展示一个视频 LLM 框架,能够在不断变化的现实环境中有效地学习和利用新工具。
利用可学习的工具代码本解决先前学习的工具的“遗忘”问题。
介绍新的工具使用指令调整数据集 VideoToolBench。
在现有基准测试和 VideoToolBench 中实现尖端性能。
Limitations:
需要进一步审查 VideoToolBench 数据集的大小和多样性。
需要进一步评估现实环境中的泛化性能。
需要进一步研究其对不同类型的视频数据和工具的适用性。
需要分析 COLT 的计算成本和效率。
👍