Este artículo demuestra la aparición natural de la inferencia de cadena de pensamiento (CdP) de largo alcance mediante un marco simple de aprendizaje por refuerzo (AR) con recompensas basadas en reglas. Este artículo aplica el enfoque de aprendizaje de cero AR de DeepSeek-R1 a varios modelos base. A diferencia de estudios previos que se centraron principalmente en el modelo Qwen2.5, aplicamos el aprendizaje de cero AR en diez modelos base diferentes, incluyendo LLaMa3-8B, Mistral-7B/24B, DeepSeek-Math-7B y Qwen2.5-math-7B. Estrategias como el ajuste formal de la recompensa y el control de la dificultad de las consultas mejoraron significativamente la precisión de la inferencia y la longitud de la respuesta en la mayoría de los entornos. Sin embargo, el seguimiento de la dinámica de aprendizaje reveló que los diferentes modelos base exhibieron patrones de aprendizaje únicos. Por ejemplo, una mayor longitud de la respuesta no siempre se correlacionó con la aparición de comportamientos cognitivos específicos, como la validación. Cabe destacar que observamos "momentos reveladores" por primera vez en un modelo a pequeña escala fuera de la familia Qwen. Compartimos diseño central, resultados de investigación y experiencia práctica que permiten un aprendizaje RL exitoso de nivel cero, además de código de fuente abierta, modelos y herramientas de análisis.