每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

视觉推理:理解 CAPTCHA 视觉语言模型中的视觉空间认知

Created by
  • Haebom

作者

Python Song、Luke Tenyi Chang、Yun-Yun Tsai、Penghui Li、Junfeng Yang

大纲

CAPTCHA 已发展成为评估视觉语言模型 (VLM) 空间推理能力的基准。本研究证明,逐步推理对于解决 CAPTCHA 至关重要,而商用 VLM 难以实现这种推理。我们推出了首个真实世界的 CAPTCHA 基准 CAPTCHA-X,该基准包含逐步操作解决方案和基本注释,并定义了五个指标来评估推理能力。我们还提出了一个基于代理 VLM 的通用框架,该框架整合了模型独特的推理能力,实现了 83.9% 的平均解决方案准确率,超越了现有基准。

Takeaways, Limitations

Takeaways:
逐步推理显著提高了验证码的解决准确率。
当前的商业 VLM 容易受到诸如 CAPTCHA 等困难的空间推理任务的影响。
CAPTCHA-X为评估推理能力提供了新的基准。
Agentic VLM 框架已被证明可有效解决 CAPTCHA。
Limitations:
研究中涵盖的 VLM 类型可能有限。
需要进一步研究来探索所提出的代理 VLM 框架的普遍性。
需要进一步分析具体的推理机制以提高模型性能。
👍