[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Surmonter les fréquences de décision lentes en contrôle continu : apprentissage par renforcement séquentiel basé sur un modèle pour un contrôle sans modèle

Created by
  • Haebom

Auteur

Devdhar Patel, Hava Siegelmann

Contour

Dans cet article, nous présentons un nouvel algorithme d'apprentissage par renforcement appelé apprentissage par renforcement séquentiel (SRL). Ce dernier est conçu pour générer une séquence d'actions pour un état d'entrée donné, permettant un contrôle efficace même à de faibles fréquences de décision. Nous abordons la difficulté d'apprentissage des séquences d'actions en utilisant des modèles et des architectures critiques d'actions à différentes échelles de temps. En particulier, nous proposons un mécanisme de « rejeu temporel » dans lequel le critique utilise le modèle pour estimer les états intermédiaires entre les actions de base, fournissant des signaux d'apprentissage pour chaque action de la séquence. Une fois l'apprentissage terminé, le générateur d'actions génère des séquences d'actions indépendamment du modèle, permettant ainsi un contrôle sans modèle à basses fréquences. Afin de mieux évaluer les performances à différentes fréquences de décision, nous introduisons la mesure du score moyen en fréquence (FAS) et démontrons la supériorité du SRL sur les algorithmes existants dans les tâches de contrôle continu.

Takeaways, Limitations

Takeaways:
Nous présentons un algorithme d’apprentissage par renforcement qui atteint des performances élevées même à de faibles fréquences de décision.
Il réduit considérablement la complexité des échantillons tout en obtenant des performances similaires à celles des algorithmes de planification en ligne basés sur des modèles.
Nous proposons une nouvelle mesure d’évaluation appelée Frequency Average Score (FAS) pour permettre la comparaison des performances à différentes fréquences de décision.
Augmente l’applicabilité aux environnements réels.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de l’algorithme proposé.
Une évaluation plus poussée des performances dans divers environnements est nécessaire.
Une analyse plus approfondie de l’efficacité des mécanismes de reproductibilité temporelle est nécessaire.
👍