每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

当思维漂移时:稳健视频推理的证据基础

Created by
  • Haebom

作者

米洛、薛子慧、亚历克斯·迪马基斯和克里斯汀·格劳曼

大纲

本文分析了思维链 (CoT) 机制在视频推理领域的局限性,该机制基于动态视觉内容进行推理,并提出了一种名为“视觉证据奖励 (VER)”的新型强化学习框架来解决这些局限性。我们发现,思维链通常会降低视频推理的性能,引发“视觉思维漂移”现象,即思维链会操纵视觉细节或忽略正确的直觉。从贝叶斯的角度来看,我们解释了思维链推理偏离实际视觉证据的原因,并放大了内部偏见或先前的语言知识。VER 奖励基于视觉证据生成推理轨迹,并在十个不同的视频理解基准测试中取得了卓越的性能。

Takeaways, Limitations

Takeaways:
我们揭示了视频推理中 CoT 的问题。
强调基于视觉证据进行推理的重要性。
通过提出视觉证据奖励(VER)框架来提高性能。
鼓励人工智能根据视觉证据做出稳健的推断。
Limitations:
对于 CoT 为何会降低视频推理性能的具体机制分析可能还不够。
可能需要进一步研究来确定 VER 框架的普遍性。
除了现有的基准之外,还需要对其他类型的视频推理任务进行性能验证。
👍