본 논문은 선형 계획법의 이중 문제 생성이라는 과제를 다룬다. 웹 규모의 데이터로 학습된 대규모 언어 모델(LLM)이 이 과제에서 높은 성능을 보일 것이라는 기대와 달리, DualSchool이라는 새로운 평가 프레임워크를 사용한 실험 결과, 최첨단 오픈 LLM들이 심지어 변수가 두 개인 가장 작은 문제에서도 일관되게 정확한 이중 문제를 생성하지 못함을 밝혔다. DualSchool은 기존 방법의 한계를 극복하는 정준 그래프 편집 거리(Canonical Graph Edit Distance)를 활용하여 이중 문제의 정확성을 검증한다. 논문은 이러한 결과가 교육자, 학생, 그리고 대규모 추론 시스템 개발에 미치는 영향을 논의한다.