Bài báo này trình bày về Scalable Logical Reasoning (SLR), một khuôn khổ toàn diện để đánh giá và đào tạo một cách có hệ thống các mô hình ngôn ngữ quy mô lớn (LLM). Dựa trên đặc tả nhiệm vụ của người dùng, SLR tự động tạo ra (i) lời nhắc hướng dẫn cho các nhiệm vụ suy luận quy nạp, (ii) các chương trình xác minh có thể thực thi (với phần thưởng có thể xác minh) cho đầu ra của mô hình và (iii) các quy tắc thực tế tiềm năng. Quy trình này hoàn toàn tự động và có thể mở rộng, không yêu cầu chú thích của con người và cho phép kiểm soát chính xác độ khó của nhiệm vụ. Sử dụng SLR, chúng tôi tạo ra SLR-Bench, một chuẩn mực bao gồm 19.000 lời nhắc được tổ chức thành 20 cấp độ chương trình giảng dạy với độ phức tạp tăng dần về quan hệ, số học và đệ quy. Các đánh giá quy mô lớn cho thấy các LLM hiện đại dễ dàng tạo ra các quy tắc hợp lệ về cú pháp nhưng thường không thực hiện suy luận logic chính xác. Mặc dù các LLM suy luận gần đây đã cải thiện hiệu suất, nhưng chúng lại phát sinh chi phí tính toán thời gian kiểm tra rất cao, vượt quá 300 đô la cho 1.000 lời nhắc. Cuối cùng, việc học chương trình giảng dạy thông qua SLR đã tăng gấp đôi độ chính xác của SLR-Bench đối với Llama-3-8B, đạt đến mức tương đương với Gemini-Flash-Thinking với chi phí tính toán thấp hơn đáng kể. Hơn nữa, khả năng suy luận này còn được tổng quát hóa cho nhiều chuẩn mực hiện có, làm nổi bật hiệu quả của SLR đối với suy luận hạ nguồn.