Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Améliorer la coordination homme-IA grâce à la formation contradictoire en ligne et aux modèles génératifs

Created by
  • Haebom

Auteur

Paresh Chaudhary, Yancheng Liang, Daphné Chen, Simon S. Du, Natasha Jaques

Contour

Cet article souligne que la capacité à coopérer avec de nouvelles personnes est un élément essentiel de nombreuses tâches d'IA rentables, de la robotique domestique à la conduite autonome. Cependant, pour être généralisée à de nouvelles personnes, elle doit être entraînée à l'aide de données capturant la diversité des comportements humains. L'entraînement antagoniste est une méthode prometteuse qui permet la génération dynamique de données et garantit la robustesse de l'agent. Il crée une boucle de rétroaction où les performances de l'agent influencent la génération de nouvelles données antagonistes, lesquelles peuvent être utilisées pour entraîner l'agent immédiatement. Cependant, il est difficile d'appliquer l'entraînement antagoniste aux tâches coopératives. Comment former un coopérateur antagoniste ? Dans cet article, nous proposons une nouvelle stratégie, l'entraînement antagoniste génératif en ligne (GOAT), qui simule des politiques d'agent coopératif valides à l'aide de modèles génératifs pré-entraînés et maximise le regret grâce à l'entraînement antagoniste. Dans le cadre de GOAT, GOAT recherche dynamiquement dans l'espace latent des modèles génératifs les stratégies de coordination sous-performantes de la politique d'apprentissage, l'agent coopérateur. GOAT expose le coopérateur à divers scénarios d'interaction complexes, permettant une meilleure généralisation. Il maintient des stratégies de coordination réalistes en corrigeant le modèle génératif afin d'éviter les exploits adverses. Nous avons évalué GOAT avec de vrais partenaires humains, et les résultats montrent des performances de pointe sur le benchmark Overcooked, soulignant sa généralisabilité à un large éventail de comportements humains.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode (GOAT) pour former efficacement des agents d'IA coopératifs en combinant des modèles génératifs pré-entraînés et une formation contradictoire.
Améliore la généralisation sur un large éventail de comportements humains, augmentant ainsi l’applicabilité dans le monde réel.
Nous démontrons l’efficacité de notre méthode en obtenant des performances de pointe sur le benchmark Overcooked.
Limitations:
Cela dépend de la qualité du modèle génératif, et si le modèle génératif est inexact ou incomplet, les performances peuvent se détériorer.
Seuls les résultats de l’évaluation du benchmark Overcooked sont présentés, ce qui rend la généralisabilité à d’autres tâches incertaine.
En raison de la nature de la formation contradictoire, le processus de formation peut être complexe et coûteux en termes de calcul.
👍