SPaRC (Spatial Pathfinding Reasoning Challenge)는 기존 추론 데이터셋의 한계를 극복하기 위해 제작된 1,000개의 2D 그리드 경로 찾기 퍼즐 데이터셋입니다. 산술 및 기하학적 규칙을 사용한 단계별 계획을 필요로 하는 공간적 및 상징적 추론 능력을 평가하는 데 초점을 맞추고 있습니다. 인간은 거의 완벽한 정확도(쉬운 퍼즐 98.0%, 어려운 퍼즐 94.5%)를 달성하지만, o4-mini와 같은 최고의 추론 모델은 낮은 정확도(쉬운 퍼즐 15.8%, 어려운 퍼즐 1.1%)를 보입니다. 모델들은 잘못된 경로를 생성하는 경우가 많으며(o4-mini의 경우 50% 이상), 추론 토큰 분석 결과 탐색 및 공간 논리에서 오류를 범하는 것으로 나타났습니다. 또한, 어려운 퍼즐에서 인간은 더 많은 시간을 소요하지만, 모델은 난이도에 따라 테스트 시간 계산을 확장하지 못합니다. 여러 번의 솔루션 시도를 허용하면 정확도가 향상되어, 향상된 훈련 및 효율적인 테스트 시간 확장 방법을 통해 더 나은 공간 추론이 가능함을 시사합니다. SPaRC는 모델의 공간 추론 한계를 파악하고 추상적이고 다단계 문제 해결에 탁월한 새로운 방법을 연구하는 데 활용될 수 있습니다.