OpenAI의 o3-preview 추론 모델이 ARC-AGI 벤치마크에서 인간 정확도를 넘어섰지만, 최첨단 모델이 과제 제작자가 의도한 추상화를 인식하고 추론하는지 조사합니다. ConceptARC에서 모델의 추상화 능력을 조사합니다. 입력 방식(텍스트 vs. 시각), 모델이 외부 Python 도구를 사용할 수 있는지 여부, 추론 모델의 추론 노력의 양을 변경하는 설정을 사용하여 모델을 평가합니다. 출력 정확도를 측정하는 것 외에도, 모델이 솔루션을 설명하기 위해 생성하는 자연어 규칙을 세밀하게 평가합니다. 이중 평가는 모델이 표면 수준 패턴에 의존하기보다는 ConceptARC가 유도하도록 설계된 추상화를 사용하여 과제를 해결하는지 평가할 수 있게 해줍니다. 결과에 따르면, 텍스트 기반 표현을 사용하는 일부 모델이 인간의 출력 정확도에 일치하지만, 최고의 모델 규칙은 종종 표면 수준 "지름길"에 기반하며 의도된 추상화를 인간보다 훨씬 적게 포착합니다. 따라서 정확도만으로 평가할 때 일반적인 추상적 추론 능력이 과대평가될 수 있습니다. 시각적 방식에서 AI 모델의 출력 정확도가 급격히 감소하지만, 규칙 수준 분석을 통해 모델이 과소평가될 수 있다는 것을 알 수 있습니다. 여전히 상당한 비율의 규칙이 의도된 추상화를 포착하지만, 종종 이러한 규칙을 올바르게 적용할 수 없기 때문입니다. 요컨대, 결과는 모델이 여전히 인간보다 추상적 추론에서 뒤쳐져 있으며, ARC와 같은 과제에서 추상적 추론을 평가하기 위해 정확도만 사용하는 것은 텍스트 방식에서 추상적 추론 능력을 과대평가하고 시각적 방식에서 과소평가할 수 있음을 보여줍니다.