每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

视频大型多模态模型能否像怀疑者一样思考——或者双倍下注:一项关于可废止视频蕴涵的研究

Created by
  • Haebom

作者

张悦、孙继雷、郭云辉、Vibhav Gogate

可废止视频蕴涵(DVidE)用于提高视频大型多模态模型的推理能力

大纲

本文旨在解决视频大型多模态模型 (VLMM) 面临的挑战。VLMM 在理解视频内容方面取得了显著进展,但在新信息出现时,其抽象推理和自适应推理能力难以修正其解释。为此,我们提出了可废止视频蕴涵 (DVidE),这是一项新颖的任务,需要模型主动思考,根据不断变化的证据更新推论。给定一个视频前提和一个文本假设,DVidE 要求模型判断新的更新是强化还是削弱了假设(分类版本),还是生成一个能够修改蕴涵关系的一致更新(生成版本)。为了解决分类任务,我们提出了反事实思维链框架,该框架利用反事实推理、基于自动语音识别 (ASR) 的视频内容和证据细化。对于生成任务,我们开发了一个框架,将 ASR 结果与大型语言模型 (LLM) 相结合,以生成与上下文相关且一致的更新,以满足强化或弱化目标。此外,我们引入了一个全新的基准数据集,该数据集配备了基于 LLM 的评估指标,旨在评估强化/弱化注释和生成性能。实验结果表明,该方法在增强 VLMM 动态推理能力方面取得了显著提升。

Takeaways, Limitations

Takeaways:
有助于提高 VLMM 的动态推理能力。
引入新的基准数据集和评估指标。
反事实思维链框架和生成框架的开发。
利用强化/弱化信息来提高模型的可解释性。
Limitations:
论文中没有具体提及Limitations。
👍