Dans cet article, nous présentons une méthode d'apprentissage par renforcement pour entraîner des contrôleurs neuro-flous à l'aide de l'algorithme d'optimisation de politique proximale (PPO). Contrairement aux méthodes existantes qui utilisent les réseaux Q profonds (DQN) pour les systèmes d'inférence neuro-floue adaptatifs (ANFIS), nous proposons un cadre basé sur PPO qui utilise une structure acteur-critique stable et conforme à la politique. Évalué dans un environnement CartPole-v1 avec différentes graines, l'agent flou entraîné avec PPO atteint systématiquement la récompense maximale de 500 avec une variance nulle après 20 000 mises à jour, surpassant le modèle de base ANFIS-DQN en termes de stabilité et de vitesse de convergence. Cela démontre le potentiel de PPO pour entraîner des agents neuro-flous explicables dans des tâches d'apprentissage par renforcement.