Cet article démontre l'émergence naturelle de l'inférence par chaîne de pensée à longue portée (CdP) grâce à un cadre d'apprentissage par renforcement (RL) simple utilisant des récompenses basées sur des règles. Cet article applique l'approche d'apprentissage sans RL de DeepSeek-R1 à différents modèles de base. Contrairement aux études précédentes qui se concentraient principalement sur le modèle Qwen2.5, nous avons effectué un apprentissage sans RL sur dix modèles de base différents, dont LLaMa3-8B, Mistral-7B/24B, DeepSeek-Math-7B et Qwen2.5-math-7B. Des stratégies telles que l'ajustement formel des récompenses et le contrôle de la difficulté des requêtes ont significativement amélioré la précision de l'inférence et la longueur des réponses dans la plupart des contextes. Cependant, le suivi de la dynamique d'apprentissage a révélé que les différents modèles de base présentaient des schémas d'apprentissage uniques. Par exemple, l'augmentation de la longueur des réponses n'était pas toujours corrélée à l'émergence de comportements cognitifs spécifiques, comme la validation. Nous avons notamment observé des « moments d'illumination » pour la première fois dans un modèle à petite échelle en dehors de la famille Qwen. Nous partageons la conception de base, les résultats de recherche et l'expérience pratique qui permettent un apprentissage RL de niveau zéro réussi, ainsi que du code open source, des modèles et des outils d'analyse.