Este artículo propone el Aprendizaje por Refuerzo con Recompensas Mixtas (RLMR), un novedoso método basado en el aprendizaje por refuerzo para la escritura creativa que equilibra la calidad subjetiva de la escritura (p. ej., literatura, expresión emocional) con la adherencia a restricciones objetivas (p. ej., requisitos formales, límites de conteo de palabras) utilizando modelos de lenguaje a gran escala. RLMR utiliza un sistema de recompensa mixta dinámica que consiste en un modelo de recompensa de escritura que evalúa la calidad subjetiva de la escritura y un modelo de verificación de restricciones que evalúa la adherencia a las restricciones objetivas. Específicamente, ajusta dinámicamente los pesos de recompensa por cumplimiento de restricciones en función de la calidad de escritura de un grupo muestreado, penalizando las muestras que violan las restricciones durante el entrenamiento. Los experimentos se llevan a cabo utilizando evaluaciones automatizadas y manuales de varias familias de modelos con parámetros que van desde 8B a 72B, así como el punto de referencia de escritura del mundo real WriteEval, demostrando un rendimiento mejorado tanto en el cumplimiento de comandos como en la calidad de escritura.