Cet article présente le Raisonnement Logique Scalable (RLS), un cadre complet pour l'évaluation et l'entraînement systématiques de modèles linguistiques à grande échelle (MLH). À partir des spécifications de tâches de l'utilisateur, le RLS génère automatiquement (i) des instructions pour les tâches de raisonnement inductif, (ii) des programmes de vérification exécutables (avec des récompenses vérifiables) pour les résultats du modèle, et (iii) des règles de vérité terrain potentielles. Ce processus est entièrement automatisé et évolutif, ne nécessite aucune annotation humaine et permet un contrôle précis de la difficulté des tâches. Grâce au RLS, nous avons créé le RLS-Bench, un benchmark composé de 19 000 instructions organisées en 20 niveaux de programme de complexité relationnelle, arithmétique et récursive croissante. Les évaluations à grande échelle montrent que les LLM de pointe génèrent facilement des règles syntaxiquement valides, mais ne parviennent souvent pas à effectuer un raisonnement logique précis. Si les LLM d'inférence récents ont amélioré leurs performances, leur coût de calcul en temps de test est très élevé, dépassant 300 $ pour 1 000 instructions. Enfin, l'apprentissage du programme via SLR a doublé la précision du SLR-Bench de Llama-3-8B, atteignant un niveau comparable à celui de Gemini-Flash-Thinking pour un coût de calcul nettement inférieur. De plus, cette capacité d'inférence est généralisable à divers benchmarks existants, soulignant l'efficacité du SLR pour l'inférence en aval.