虽然 OpenAI 的 o3 预览版推理模型在 ARC-AGI 基准测试中超越了人类的准确率,但我们在 ConceptARC 中研究了该模型的抽象能力,以确定最先进的模型是否能够识别并推断出任务创建者所期望的抽象概念。我们通过改变输入格式(文本与视觉)、使用外部 Python 工具以及推理模型的推理工作量来评估模型。除了测量输出准确率外,我们还详细评估了模型生成的用于解释其解决方案的自然语言规则。这种双重评估使我们能够评估模型是否使用 ConceptARC 设计的抽象概念来解决任务,而不是依赖于表面模式。