每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

MovieCORE:电影中的认知推理

Created by
  • Haebom

作者

Gueter Josmy Faure、陈敏宏、叶嘉芳、程颖、苏鸿廷、唐永浩、赖尚宏、许文斯顿

大纲

MovieCORE 是一个新颖的视频问答 (VQA) 数据集,旨在探索对电影内容更深层次的认知理解。与现有数据集侧重于表面理解不同,MovieCORE 强调能够引发特定于视频素材的系统 2 思维的问题。我们提出了一种创新的智能体头脑风暴方法,利用多个大规模语言模型 (LLM) 作为思维智能体来生成和优化高质量的问答对。为了评估数据集的质量,我们开发了一套认知测试,用于评估模型的深度、发人深省的潜力和句法复杂性。我们还提出了一个全面的评估框架,用于评估 VQA 模型在更深层次认知任务中的表现。为了突破现有视频语言模型 (VLM) 的局限性,我们引入了智能体选择增强 (ACE),这是一个智能体增强模块,可在训练后将模型推理能力提升高达 25%。这项研究有助于提升人工智能系统中的电影理解能力,并为当前 VQA 模型在处理更具挑战性和更细致的电影内容问题时的能力和局限性提供了宝贵的见解。项目页面、数据集和代码可以在https://joslefaure.github.io/assets/html/moviecore.html找到。

Takeaways, Limitations

Takeaways:
我们提出了 MovieCORE,这是一个新的 VQA 数据集,用于评估对电影内容的深度认知理解。
我们提出了一种通过基于 LLM 的代理头脑风暴生成高质量问答对的新方法。
我们提出了一个全面的评估框架,用于评估 VQA 模型在深度认知任务上的性能。
我们通过ACE模块提升了VQA模型的性能,增强了VLM的推理能力。
它有助于提高人工智能系统中的电影理解能力,并深入了解当前 VQA 模型的功能和局限性。
Limitations:
缺乏有关 MovieCORE 数据集的大小和多样性的具体信息。
需要进一步验证 ACE 模块的泛化性能。
缺乏与其他 VQA 数据集的比较分析。
可能对某些电影类型存在偏见。
👍