Dans cet article, nous présentons l'optimisation de la partition des récompenses (RPO), une nouvelle méthode d'optimisation des politiques utilisant directement les récompenses sans modéliser la fonction de valeur dans l'apprentissage par renforcement (RL) à trajectoire unique. Alors que l'optimisation directe des récompenses (DRO) conventionnelle souffre d'une forte variance hors politique en raison de l'approximation de la fonction de valeur, du couplage entre la politique et l'apprentissage de la valeur, et de l'absence de supervision absolue de la politique, la RPO répond à ces limitations en régularisant les récompenses observées à l'aide d'une méthode de partitionnement directement estimée à partir des données. Elle fournit un objectif d'apprentissage supervisé simple pour la politique sans modèles auxiliaires et surpasse les méthodes existantes pour la modélisation du langage de rétroaction scalaire utilisant le modèle Flan-T5.