Este artículo presenta un enfoque basado en el aprendizaje por refuerzo para mejorar la capacidad de escritura creativa de modelos lingüísticos a pequeña escala (SLM). Estudiamos dos estrategias de recompensa basadas en IA dentro del marco de aprendizaje por refuerzo con inteligencia (RLAIF), dirigidas a la generación de saludos en chino mediante un SLM de 7 mil millones de parámetros. La primera estrategia utiliza un RM entrenado con datos de preferencia de alta calidad generados mediante un marco de muestreo de rechazo multiagente, mientras que la segunda utiliza un LLM como juez basado en principios, optimizado mediante entrenamiento adversarial y un mecanismo reflexivo. Los resultados experimentales muestran que ambos enfoques mejoran significativamente la producción creativa en comparación con los modelos de referencia, pero el LLM como juez basado en principios ofrece una calidad de generación superior y beneficios en términos de eficiencia de entrenamiento y menor dependencia de los datos de anotación humana. Un método de evaluación automatizado demuestra una alta concordancia con el juicio humano.