본 논문은 대규모 언어 모델(LLM)의 체계적인 평가 및 훈련을 위한 종단 간 프레임워크인 SLR(Scalable Logical Reasoning)을 제시한다. SLR은 사용자의 작업 명세를 바탕으로, (i) 귀납적 추론 작업을 위한 지시 프롬프트, (ii) 모델 출력에 실행 가능한 검증 프로그램(검증 가능한 보상 제공), (iii) 잠재적 기저 진실 규칙을 자동으로 생성한다. 이 과정은 완전 자동화되고 확장 가능하며, 사람의 주석이 필요 없고, 작업 난이도를 정밀하게 제어할 수 있다. 논문에서는 SLR을 사용하여 관계적, 산술적, 재귀적 복잡성이 점진적으로 증가하는 20개의 커리큘럼 수준으로 구성된 19,000개의 프롬프트로 이루어진 벤치마크인 SLR-Bench를 생성하였다. 대규모 평가 결과, 최신 LLM은 구문적으로 유효한 규칙을 쉽게 생성하지만, 종종 정확한 논리적 추론에는 실패하는 것으로 나타났다. 최근 추론 LLM은 성능이 향상되었지만, 테스트 시간 계산 비용이 매우 높아 1,000개의 프롬프트에 대해 300달러가 넘는 비용이 발생한다. SLR을 통한 커리큘럼 학습은 Llama-3-8B의 SLR-Bench 정확도를 두 배로 높여, 훨씬 적은 계산 비용으로 Gemini-Flash-Thinking과 동등한 성능을 달성하였다. 또한, 이러한 추론 능력은 다양한 기존 벤치마크로 일반화되어, 다운스트림 추론을 위한 SLR의 효과를 강조한다.