每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

人工智能模型是否能够跨模态执行类似人类的抽象推理?

Created by
  • Haebom

作者

Claas Beger、Ryan Yi、Shuhao Fu、Arseny Moskvichev、Sarah W. Tsai、Sivasankaran Rajamanickam、Melanie Mitchell

大纲

虽然 OpenAI 的 o3 预览版推理模型在 ARC-AGI 基准测试中超越了人类的准确率,但我们仍在研究最先进的模型是否能够识别并推断任务创建者所期望的抽象概念。我们测试了 ConceptARC 中模型的抽象能力。我们使用不同的设置来评估模型,这些设置包括输入格式(文本还是视觉)、模型是否可以使用外部 Python 工具以及推理模型所需的推理工作量。除了测量输出准确率外,我们还仔细评估了模型生成的用于解释其解决方案的自然语言规则。这种双重评估使我们能够评估模型是否使用 ConceptARC 设计的抽象概念来解决任务,而不是依赖于表面模式。我们的结果表明,虽然一些使用基于文本的表示的模型的输出准确率与人类相当,但最佳模型规则通常依赖于表面“捷径”,并且捕获的预期抽象概念明显少于人类。因此,仅评估准确率可能会高估一般的抽象推理能力。虽然人工智能模型的输出准确率在视觉模式下急剧下降,但规则级分析表明,模型可能低估了这一点。虽然相当一部分规则仍然能够捕捉到预期的抽象概念,但这些规则往往无法得到正确应用。简而言之,结果表明,模型在抽象推理方面仍然落后于人类,在 ARC 等任务中,仅使用准确率来评估抽象推理能力可能会高估文本环境下的抽象推理能力,而低估视觉环境下的抽象推理能力。

Takeaways,Limitations

基于文本的模型可以达到类似人类的准确度,但它们通常依赖于表面模式,这可能导致高估其抽象推理能力。
视觉模型的准确度可能较低,但它们有时可以生成捕捉预期抽象的规则,这可能导致低估推理能力。
单凭准确性不足以准确评估抽象推理能力。
本研究提出了一个框架,以更准确地评估多模态模型的抽象推理能力。
在类似ARC的任务中,评估抽象推理能力时,除了准确性之外,还必须进行规则分析。
👍