本文对以自我为中心的视觉理解研究进行了全面的综述。由于人工智能和可穿戴设备的进步,该领域备受关注。以自我为中心的视觉通过穿戴式摄像头或传感器收集视觉和多模态数据,为模拟人类视觉体验提供了独特的视角。本文系统地分析了以自我为中心的场景的构成要素,将任务分为四大领域——主体理解、客体理解、环境理解和混合理解——并深入研究了每个类别中的子任务。此外,本文总结了该领域的主要挑战和趋势,并概述了高质量的以自我为中心的视觉数据集,为未来的研究提供了宝贵的资源。通过总结最新进展,本文展望了以自我为中心的视觉技术在增强现实、虚拟现实和具身智能等领域的广泛应用,并基于这些最新进展提出了未来的研究方向。