Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Optimisation des politiques ANFIS en fonction des politiques à l'aide de l'optimisation des politiques proximales

Created by
  • Haebom

Auteur

Kaaustaaub Shankar, Wilhelm Louw, Kelly Cohen

Contour

Dans cet article, nous présentons une méthode d'apprentissage par renforcement pour entraîner des contrôleurs neuro-flous à l'aide de l'algorithme d'optimisation de politique proximale (PPO). Contrairement aux méthodes existantes qui utilisent les réseaux Q profonds (DQN) pour les systèmes d'inférence neuro-floue adaptatifs (ANFIS), nous proposons un cadre basé sur PPO qui utilise une structure acteur-critique stable et conforme à la politique. Évalué dans un environnement CartPole-v1 avec différentes graines, l'agent flou entraîné avec PPO atteint systématiquement la récompense maximale de 500 avec une variance nulle après 20 000 mises à jour, surpassant le modèle de base ANFIS-DQN en termes de stabilité et de vitesse de convergence. Cela démontre le potentiel de PPO pour entraîner des agents neuro-flous explicables dans des tâches d'apprentissage par renforcement.

Takeaways, Limitations

Takeaways:
Démonstration de l'efficacité et de la stabilité de l'entraînement du contrôleur flou neuronal à l'aide de PPO.
Il présente de meilleures performances (vitesse de convergence, stabilité) que les méthodes basées sur ANFIS-DQN.
Présentation de l’utilisation potentielle du PPO dans le développement de modèles d’IA explicables.
Limitations:
ÉValué uniquement dans l'environnement CartPole-v1, nécessite une vérification des performances de généralisation.
Manque d’analyse comparative avec d’autres algorithmes d’apprentissage par renforcement.
Manque de description détaillée de la structure et des paramètres du système flou.
👍