DecompSR은 500만 개 이상의 데이터 포인트를 포함하는 대규모 벤치마크 데이터셋으로, 분해된 공간 추론 능력을 분석하기 위해 설계되었습니다. 이 데이터셋은 생산성(추론 깊이), 대체 가능성(개체 및 언어적 가변성), 과잉 일반화(입력 순서, 방해 요소) 및 체계성(새로운 언어 요소)과 같은 다양한 측면의 구성성을 독립적으로 변화시킬 수 있도록 생성되었습니다. DecompSR은 구조적으로 구축되어 정확성이 보장되며, 기호 해결사를 사용하여 독립적으로 검증되었습니다. 대규모 언어 모델(LLM)을 대상으로 광범위한 벤치마킹을 수행한 결과, LLM이 공간 추론 작업에서 생산적이고 체계적인 일반화에 어려움을 겪는 반면, 언어적 변동에 더 강하다는 것을 보여주었습니다.