Cet article propose l'apprentissage par renforcement avec récompenses mixtes (RLMR), une nouvelle méthode d'apprentissage par renforcement pour l'écriture créative. Cette méthode équilibre la qualité subjective de l'écriture (par exemple, la littérarité, l'expression émotionnelle) et le respect de contraintes objectives (par exemple, les exigences formelles, la limite du nombre de mots) à l'aide de modèles linguistiques à grande échelle. RLMR utilise un système de récompenses dynamiquement mixtes composé d'un modèle de récompense d'écriture évaluant la qualité subjective de l'écriture et d'un modèle de vérification des contraintes évaluant le respect des contraintes objectives. Plus précisément, il ajuste dynamiquement les pondérations des récompenses de conformité aux contraintes en fonction de la qualité d'écriture d'un groupe échantillonné, pénalisant ainsi les échantillons qui ne respectent pas les contraintes pendant l'apprentissage. Les expériences sont menées à l'aide d'évaluations automatisées et manuelles de différentes familles de modèles avec des paramètres allant de 8B à 72B, ainsi que du benchmark d'écriture réel WriteEval, démontrant une amélioration des performances en termes de conformité aux commandes et de qualité d'écriture.