본 논문은 대규모 언어 모델(LLM)의 기하 공간 추론 능력, 특히 절차적 코드로 표현된 기하 공간 정보 처리 능력에 대한 연구를 다룬다. 프로그램-기하(Program-to-Geometry) 작업을 공식화하여 모델이 프로그래밍 드로잉 코드를 정확하고 추상적인 기하 추론으로 변환하는 능력을 평가한다. 이를 위해 기하적 복잡성을 기준으로 3단계 분류 체계를 갖춘 500개의 문제로 구성된 GeoGramBench 벤치마크를 제시한다. 17개의 최첨단 LLM을 평가한 결과, 최고 수준의 추상화에서도 50% 미만의 정확도를 보이는 등, 프로그램 기반 공간 추론의 어려움을 보여준다. GeoGramBench는 기호-공간 기하 추론 연구 발전에 기여할 가치 있는 자료임을 제시한다.