Cet article aborde l'intérêt croissant pour les formulations de récompense moyenne pour l'apprentissage par renforcement (RL), capables de résoudre des problèmes à long terme sans actualisation. Dans des contextes d'actualisation, des algorithmes de régulation entropique ont été développés, démontrant des performances supérieures à celles des méthodes déterministes. Cependant, aucun algorithme d'RL profond ciblant des objectifs de récompense moyenne régulant l'entropie n'a été développé. Pour combler cette lacune, cet article propose un algorithme d'acteur-critique souple basé sur la récompense moyenne. Nous validons notre méthode en la comparant aux algorithmes de récompense moyenne existants sur des benchmarks RL standard, obtenant des performances supérieures pour le critère de récompense moyenne.