[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Repenser les fondements de l'apprentissage par renforcement continu

Created by
  • Haebom

Auteur

Esraa Elelimy, David Szepesvari, Martha White, Michael Bowling

Contour

Cet article analyse les différences entre la vision traditionnelle de l'apprentissage par renforcement (RL) et celle de l'apprentissage par renforcement continu (ARC), et propose un nouveau formalisme adapté à l'ARC. Alors que l'ARC traditionnel cesse d'apprendre une fois qu'il a trouvé une politique optimale, l'ARC vise l'apprentissage et l'adaptation continus. Nous soutenons que quatre piliers de l'ARC traditionnel, à savoir les processus de décision de Markov (PDM), l'accent mis sur les artefacts indépendants du temps, une métrique d'évaluation de la somme des récompenses attendues et un environnement de référence basé sur les épisodes, qui suivent ces piliers, sont en conflit avec les objectifs de l'ARC. Nous proposons un nouveau formalisme qui remplace les premier et troisième piliers de l'ARC traditionnel par une nouvelle métrique d'évaluation du regret de déviation adaptée au processus historique et à l'apprentissage continu, et discutons des approches possibles pour améliorer les deux autres piliers.

Takeaways, Limitations

Takeaways:
En révélant clairement que la base traditionnelle du RL existant n’est pas adaptée au CRL, nous suggérons une nouvelle direction pour la recherche sur le CRL.
Nous apportons une contribution importante à la recherche CRL en proposant un nouveau formalisme (processus historique et regret de déviation) adapté au CRL.
Il surmonte les limites du RL existant et suggère une nouvelle direction de recherche pour le développement du CRL.
Limitations:
D’autres études sont nécessaires pour étudier l’applicabilité pratique et l’efficacité du nouveau formalisme proposé.
Il manque des suggestions méthodologiques spécifiques sur la manière d’améliorer les deux piliers restants (se concentrer sur les artefacts indépendants du temps et les environnements de référence basés sur des épisodes).
Il y a un manque de discussion sur la complexité de calcul du regret de déviation proposé et la difficulté de son application pratique.
👍