[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Améliorer les modèles Transformer World pour un RL efficace en termes de données

Created by
  • Haebom

Auteur

Antoine Dedieu, Joseph Ortiz, Xinghua Lou, Carter Wendelken, Wolfgang Lehrach, J Swaroop Guntupalli, Miguel Lazaro-Gredilla, Kevin Patrick Murphy

Contour

Cet article présente trois améliorations du paradigme standard d'apprentissage par renforcement basé sur un modèle basé sur Transformer. Premièrement, « Dyna avec échauffement » entraîne la politique à l'aide de données réelles et imaginaires, mais ne commence à utiliser ces données qu'une fois le modèle du monde suffisamment entraîné. Deuxièmement, le « tokenizer du plus proche voisin » pour les patchs d'image améliore l'approche de tokenizer précédente, requise lors de l'utilisation du modèle du monde Transformer (TWM), en garantissant que les mots de code sont fixes après génération, fournissant ainsi une cible cohérente pour l'apprentissage TWM. Troisièmement, « l'application par l'enseignant de bloc » permet à TWM d'inférer conjointement les futurs jetons pour le pas de temps suivant au lieu de les générer séquentiellement. La méthode proposée démontre des améliorations significatives de performances par rapport aux méthodes précédentes dans divers environnements. En particulier, elle atteint une récompense de 69,66 % après 1 million d'étapes d'environnement sur le benchmark Craftax-classic, surpassant significativement DreamerV3 (53,2 %) et surpassant pour la première fois le niveau humain (65,0 %). Nous démontrons également la généralité de l’approche à travers des résultats préliminaires sur Craftax-full, MinAtar et trois autres jeux à deux joueurs.

Takeaways, Limitations

Takeaways: Nous présentons trois nouvelles techniques (Dyna avec échauffement, tokenisation du plus proche voisin, forçage de l'enseignant par bloc) qui améliorent considérablement les performances de l'apprentissage par renforcement basé sur Transformer et permettent d'obtenir des résultats supérieurs à ceux obtenus par l'humain sur Craftax-classic. Les résultats expérimentaux dans divers environnements démontrent la généralité de la méthode proposée.
Limitations: Les résultats pour les jeux Craftax-full, MinAtar et à 2 joueurs sont préliminaires et nécessitent une analyse plus approfondie et des expériences supplémentaires. Des recherches supplémentaires sont nécessaires pour déterminer si la méthode proposée est aussi efficace dans tous les environnements.
👍