本文探讨了现有以自我为中心的视觉基准测试的局限性,这些基准测试忽略了现实环境中不可避免的低光照条件。本文提出了 EgoNight,这是首个用于夜间以自我为中心的视觉研究的综合基准测试。EgoNight 专注于视觉问答 (VQA),并引入了昼夜对齐的视频,展示了使用日间数据提升的夜间标注质量,以及在不同光照条件下的明显性能差距。通过收集使用 Blender 渲染的合成视频和真实世界录制的素材,我们确保场景和动作在视觉和时间上都对齐。基于此,我们构建了 EgoNight-VQA,这是一个新颖的日间增强夜间自动标注引擎,并经过了广泛的人工验证。EgoNight-VQA 包含 90 个视频中 12 种不同 QA 类型的 3,658 个 QA 对,需要超过 300 小时的人工训练。对最先进的多模态大规模语言模型 (MLLM) 的评估表明,从白天过渡到夜晚时,性能会显著下降。除了 VQA 之外,我们还通过引入两个辅助任务来探索现有模型的局限性:昼夜对应检索和夜间自我中心深度估计。