본 논문은 대규모 언어 모델(LLM)의 데이터 구조를 이해하고 추론하는 능력, 즉 구조적 추론 능력을 평가하기 위한 새로운 벤치마크인 DSR-Bench를 제시합니다. DSR-Bench는 20개의 데이터 구조, 35개의 연산, 4,140개의 문제 인스턴스를 포함하며, 계층적으로 구성되어 추론 제한 사항을 세분화하여 분석할 수 있습니다. 자동화되고 결정적인 평가 파이프라인을 통해 객관적인 평가를 수행하며, 9개의 최첨단 LLM을 벤치마킹하여 다중 속성 및 다중 홉 추론에서의 어려움, 복잡한 구조에서의 취약성 등을 분석합니다. 특히 다차원 데이터 및 자연어 작업 설명에서의 성능 저하를 보여주며, 실제 배포를 위한 중요한 기술적 격차를 강조합니다.