每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

视觉语言模型能像人类一样看待城市场景吗?城市感知基准

Created by
  • Haebom

作者

拉希德·穆什卡尼

大纲

本文提出了一个小型基准,用于评估视觉语言模型 (VLM) 的城市认知能力,以了解对城市景观的理解如何影响设计和规划。使用 100 张蒙特利尔街道照片(照片和逼真的合成图像均匀分布),12 名参与者提供了 230 份涵盖 30 个维度的注释表单,结合了物理属性和主观印象。七个 VLM 采用零样本方法进行评估,并使用准确率和杰卡德叠加法进行评估。我们发现,这些模型与可见客观特征的一致性高于其主观评估。

Takeaways, Limitations

Takeaways:
建立评估与城市认知相关的 VLM 性能的基准。
我们确认该模型在客观属性上的强劲表现。
披露可重复评估的基准、提示和工具。
提出将其用于参与式城市分析的可能性。
Limitations:
模型在主观评价上的表现相对较低。
合成图像的性能略有下降。
所用数据集的大小很小。
👍