虽然 OpenAI 的 o3 预览版推理模型在 ARC-AGI 基准测试中超越了人类的准确率,但我们仍在研究最先进的模型是否能够识别并推断任务创建者所期望的抽象概念。我们测试了 ConceptARC 中模型的抽象能力。我们使用不同的设置来评估模型,这些设置包括输入格式(文本还是视觉)、模型是否可以使用外部 Python 工具以及推理模型所需的推理工作量。除了测量输出准确率外,我们还仔细评估了模型生成的用于解释其解决方案的自然语言规则。这种双重评估使我们能够评估模型是否使用 ConceptARC 设计的抽象概念来解决任务,而不是依赖于表面模式。我们的结果表明,虽然一些使用基于文本的表示的模型的输出准确率与人类相当,但最佳模型规则通常依赖于表面“捷径”,并且捕获的预期抽象概念明显少于人类。因此,仅评估准确率可能会高估一般的抽象推理能力。虽然人工智能模型的输出准确率在视觉模式下急剧下降,但规则级分析表明,模型可能低估了这一点。虽然相当一部分规则仍然能够捕捉到预期的抽象概念,但这些规则往往无法得到正确应用。简而言之,结果表明,模型在抽象推理方面仍然落后于人类,在 ARC 等任务中,仅使用准确率来评估抽象推理能力可能会高估文本环境下的抽象推理能力,而低估视觉环境下的抽象推理能力。