每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

人工智能模型是否能够跨模态执行类似人类的抽象推理?

Created by
  • Haebom

作者

Claas Beger、Ryan Yi、Shuhao Fu、Arseny Moskvichev、Sarah W. Tsai、Sivasankaran Rajamanickam、Melanie Mitchell

大纲

虽然 OpenAI 的 o3 预览版推理模型在 ARC-AGI 基准测试中超越了人类的准确率,但我们在 ConceptARC 中研究了该模型的抽象能力,以确定最先进的模型是否能够识别并推断出任务创建者所期望的抽象概念。我们通过改变输入格式(文本与视觉)、使用外部 Python 工具以及推理模型的推理工作量来评估模型。除了测量输出准确率外,我们还详细评估了模型生成的用于解释其解决方案的自然语言规则。这种双重评估使我们能够评估模型是否使用 ConceptARC 设计的抽象概念来解决任务,而不是依赖于表面模式。

Takeaways, Limitations

虽然一些使用基于文本的表示的模型与人类的输出精度相匹配,但最佳模型规则通常基于表面级别的“捷径”,并且捕获的预期抽象远少于人类。
仅根据准确性来评估 ARC 等任务的抽象推理可能会高估文本形式的抽象推理能力。
从视觉形式上看,AI 模型的输出准确率急剧下降,但规则级分析表明,模型仍然表现出相当一部分捕捉到预期抽象的规则,这可能是一种低估。
模型在抽象推理方面仍然落后于人类,单凭准确性可能会高估或低估它们在 ARC 等任务上的抽象推理能力。
所提出的评估框架更忠实地描绘了多模态模型的抽象推理能力,并提供了一种更有原则的方法来追踪向类似人类、以抽象为中心的智能迈进的进展。
👍