[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Récompenses intrinsèques en ligne pour les agents décisionnaires à partir des retours d'expérience sur les modèles de langage à grande échelle

Created by
  • Haebom

Auteur

Qinqing Zheng, Mikael Henaff, Amy Zhang, Aditya Grover, Brandon Amos

Contour

Dans cet article, nous présentons une méthode permettant de synthétiser automatiquement des récompenses denses à partir d'explications en langage naturel dans l'apprentissage par renforcement. Pour résoudre les problèmes d'évolutivité des annotations LLM dans les études précédentes (Limitations), et le besoin d'importants ensembles de données hors ligne, nous proposons une architecture distribuée, ONI. ONI annote l'expérience de l'agent via un serveur LLM asynchrone et la distille dans un modèle de récompense intrinsèque. Nous explorons divers algorithmes, tels que les modèles de hachage, de classification et de classement, et obtenons des performances de pointe sur diverses tâches dans l'environnement d'apprentissage NetHack. Contrairement aux études précédentes, cette architecture ne nécessite pas de grand ensemble de données hors ligne. Le code est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Résolution du problème d'évolutivité de la synthèse de compensation dense à l'aide d'explications en langage naturel basées sur LLM.
Formation d'agents d'apprentissage par renforcement sans grands ensembles de données hors ligne.
Présentation de la possibilité d'une modélisation optimale de la récompense grâce à diverses options algorithmiques.
Atteindre des performances de pointe dans l'environnement d'apprentissage NetHack.
Augmenter la reproductibilité et l’évolutivité de la recherche grâce à la divulgation de code source ouvert.
Limitations:
Dépendance du serveur LLM : une dégradation des performances peut se produire en fonction des performances et de la disponibilité du serveur LLM.
Complexité de l'algorithme : Nécessité de comparer et d'optimiser les performances de différents algorithmes.
Performances de généralisation : performances spécifiques à l'environnement NetHack, doivent être vérifiées pour être généralisées à d'autres environnements.
👍