대규모 언어 모델(LLM)이 학습 도구로 채택되고 있지만, 대부분의 도구는 텍스트 기반으로, 시각화가 필수적인 수학과 같은 분야에서 유용성이 제한적입니다. 본 논문은 LaTeX TikZ 코드의 중간 표현(IR)을 기반으로 하는 기하학적 도형에 대한 자동적이고 확장 가능한 평가 파이프라인인 DiagramIR을 제안합니다. DiagramIR은 LLM-as-a-Judge와 같은 다른 평가 기준선에 비해 인간 평가자와의 일치도가 높습니다. 이 평가 방식은 GPT-4.1-Mini와 같은 소규모 모델이 GPT-5와 같은 대규모 모델과 유사한 성능을 낼 수 있게 하여, 접근 가능하고 확장 가능한 교육 기술 배포에 기여합니다.