Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LongWriter-Zero: Dominando la generación de textos ultralargos mediante aprendizaje por refuerzo

Created by
  • Haebom

Autor

Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li

Describir

Este artículo presenta un enfoque novedoso para mejorar la capacidad de los modelos lingüísticos a gran escala (LLM) para generar textos extensos. Los métodos existentes basados ​​en el ajuste fino supervisado (SFT) presentan limitaciones como la dificultad para generar datos artificiales de textos extensos, problemas de coste y resultados inconsistentes. En este estudio, utilizamos aprendizaje por refuerzo (RL) sin datos sintéticos para inducir a los LLM a generar textos extensos y de alta calidad. De forma similar a R1-Zero, partimos de un modelo base y procedemos a la generación mediante un proceso de planificación y modificación que utiliza capacidades de inferencia, y empleamos un modelo de recompensa especial para el control de la longitud, la calidad y la mejora del formato estructural. El modelo LongWriter-Zero, entrenado en Qwen2.5-32B, supera a los métodos SFT existentes y a más de 100 000 millones de modelos, como DeepSeek R1 y Qwen3-235B, en WritingBench y Arena-Write. Los datos y los puntos de control del modelo están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Presentamos la posibilidad de mejorar la capacidad de LLM para generar oraciones largas a través del aprendizaje de refuerzo sin depender de datos sintéticos.
Logra un rendimiento superior al de los métodos SFT existentes, produciendo resultados que superan los modelos de más de 100 mil millones.
Garantizar la reproducibilidad y escalabilidad de la investigación a través de código abierto.
Limitations:
Falta de análisis detallado del diseño y desempeño del modelo de compensación utilizado en este estudio.
Es necesario verificar el rendimiento de generalización para varios modelos basados ​​en LLM.
Hay margen de mejora en la eficiencia y estabilidad del proceso de aprendizaje de refuerzo.
👍