Dans cet article, nous proposons SPIRAL, un nouveau cadre permettant aux modèles de langage d'améliorer leur capacité de raisonnement par auto-apprentissage sans intervention humaine. SPIRAL utilise une méthode d'auto-jeu dans laquelle les modèles de langage apprennent en rivalisant avec des versions d'eux-mêmes en constante amélioration, par le biais de jeux mutuels à somme nulle. Cela élimine le besoin pour les humains de fournir des problèmes et des réponses un par un ou de concevoir des systèmes de récompense. Pour l'auto-jeu à grande échelle, nous proposons un système d'apprentissage par renforcement multi-agents, multi-tours et entièrement en ligne, ainsi qu'une technique d'estimation des avantages conditionnels aux rôles (RAE). Lorsque le modèle Qwen3-4B-Base est entraîné à l'aide de jeux de poker Kuhn, ses capacités de raisonnement mathématique et de raisonnement général sont améliorées respectivement de 8,6 % et 8,4 %, et il surpasse la SFT utilisant 25 000 enregistrements de jeux experts. Les résultats d'analyse montrent que cela est obtenu grâce à des schémas cognitifs tels que la décomposition systématique, le calcul de la valeur attendue et l'analyse au cas par cas. L'entraînement à différents jeux (morpion, poker Kuhn, négociation simple) améliore les capacités de raisonnement spécifiques à chaque jeu. L'application de SPIRAL à un puissant modèle d'inférence (DeepSeek-R1-Distill-Qwen-7B) a également montré une amélioration moyenne des performances de 2,0 %, démontrant que les jeux à somme nulle développent naturellement des capacités d'inférence généralisables.