基于利用大规模语言模型 (LLM) 的视频理解研究的进展,本文提出了一种视频 LLM,专注于探索使用预训练专家模型(工具)的能力。现有方法利用闭源 LLM 或通过指令调整来微调工具使用情况,但它们假设工具库固定,难以推广到实时且不断发展的工具数据集。为了解决这个问题,我们提出了一种通过持续工具使用 (COLT) 来增强开源视频 LLM 的方法,该方法可以从连续的工具流中自动获取工具使用技能,而不会“忘记”先前学习的工具。COLT 将可学习的工具码本与特定于工具的记忆系统相结合,并根据用户指令与码本内工具特征之间的相似性动态选择相关工具。我们利用以视频为中心的工具使用指令调整数据集 VideoToolBench 来发挥视频 LLM 在工具使用方面的潜力,并在现有视频 LLM 基准测试和 VideoToolBench 数据集上展示了最佳性能。