每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

EgoNight:以具有挑战性的基准实现夜间自我中心视觉理解

Created by
  • Haebom

作者

张德恒、付玉倩、杨润一、苗杨、钱天文、徐峥、孙国磊、Ajad Chhatkuli、黄轩静、蒋玉刚、Luc Van Gool、Danda Pani Paudel

大纲

本文探讨了现有以自我为中心的视觉基准测试的局限性,这些基准测试忽略了现实环境中不可避免的低光照条件。本文提出了 EgoNight,这是首个用于夜间以自我为中心的视觉研究的综合基准测试。EgoNight 专注于视觉问答 (VQA),并引入了昼夜对齐的视频,展示了使用日间数据提升的夜间标注质量,以及在不同光照条件下的明显性能差距。通过收集使用 Blender 渲染的合成视频和真实世界录制的素材,我们确保场景和动作在视觉和时间上都对齐。基于此,我们构建了 EgoNight-VQA,这是一个新颖的日间增强夜间自动标注引擎,并经过了广泛的人工验证。EgoNight-VQA 包含 90 个视频中 12 种不同 QA 类型的 3,658 个 QA 对,需要超过 300 小时的人工训练。对最先进的多模态大规模语言模型 (MLLM) 的评估表明,从白天过渡到夜晚时,性能会显著下降。除了 VQA 之外,我们还通过引入两个辅助任务来探索现有模型的局限性:昼夜对应检索和夜间自我中心深度估计。

Takeaways, Limitations

Takeaways:
为夜间自我中心视觉研究提供第一个全面的基准。
利用昼夜对齐视频来提高夜间数据的质量。
我们确认了MLLM在低光环境下的性能下降,并强调了相关研究的必要性。
除了VQA之外,还通过两个辅助任务扩展了研究范围。
Limitations:
论文本身没有指定 Limitations。
(推论)需要验证基准中使用的数据的多样性如何反映现实世界的复杂性。
(推论)缺乏具体的方法来提高模型对夜间环境的适应性。
👍