Este artículo presenta un enfoque novedoso para mejorar la capacidad de los modelos lingüísticos a gran escala (LLM) para generar textos extensos. Los métodos existentes basados en el ajuste fino supervisado (SFT) presentan limitaciones como la dificultad para generar datos artificiales de textos extensos, problemas de coste y resultados inconsistentes. En este estudio, utilizamos aprendizaje por refuerzo (RL) sin datos sintéticos para inducir a los LLM a generar textos extensos y de alta calidad. De forma similar a R1-Zero, partimos de un modelo base y procedemos a la generación mediante un proceso de planificación y modificación que utiliza capacidades de inferencia, y empleamos un modelo de recompensa especial para el control de la longitud, la calidad y la mejora del formato estructural. El modelo LongWriter-Zero, entrenado en Qwen2.5-32B, supera a los métodos SFT existentes y a más de 100 000 millones de modelos, como DeepSeek R1 y Qwen3-235B, en WritingBench y Arena-Write. Los datos y los puntos de control del modelo están disponibles públicamente.