每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

OmniSpatial:面向视觉语言模型的综合空间推理基准

Created by
  • Haebom

作者

贾梦迪、齐泽坤、张少臣、张文耀、于新强、何家伟、王禾、李毅

大纲

OmniSpatial 是一个基于认知心理学的全面且具有挑战性的空间推理基准测试。它包含四大类别——动态推理、复杂空间逻辑、空间交互和视角采择——以及 50 个子类别,涵盖超过 8,400 个问答对。我们通过实验证明了现有的开源和闭源 VLM 在综合空间推理方面存在显著局限性,并探索了两种增强空间推理的策略:PointGraph(显式场景图线索)和 SpatialCoT(新的视角思维链)。

Takeaways, Limitations

Takeaways:
我们提出了一个新的基准 OmniSpatial,它清楚地展示了现有 VLM 的空间推理能力的局限性。
提出了 PointGraph 和 SpatialCoT 策略来改进空间推理。
提出基于认知心理学的更全面、更复杂的空间推理任务。
Limitations:
由于OmniSpatial仍处于早期阶段的基准测试,未来可能需要添加更加多样化和复杂的空间推理任务。
需要进一步研究所提出的 PointGraph 和 SpatialCoT 策略的泛化性能和效率。
当前基准可能需要进一步扩大。
👍