Cet article souligne que la capacité à coopérer avec de nouvelles personnes est un élément essentiel de nombreuses tâches d'IA rentables, de la robotique domestique à la conduite autonome. Cependant, pour être généralisée à de nouvelles personnes, elle doit être entraînée à l'aide de données capturant la diversité des comportements humains. L'entraînement antagoniste est une méthode prometteuse qui permet la génération dynamique de données et garantit la robustesse de l'agent. Il crée une boucle de rétroaction où les performances de l'agent influencent la génération de nouvelles données antagonistes, lesquelles peuvent être utilisées pour entraîner l'agent immédiatement. Cependant, il est difficile d'appliquer l'entraînement antagoniste aux tâches coopératives. Comment former un coopérateur antagoniste ? Dans cet article, nous proposons une nouvelle stratégie, l'entraînement antagoniste génératif en ligne (GOAT), qui simule des politiques d'agent coopératif valides à l'aide de modèles génératifs pré-entraînés et maximise le regret grâce à l'entraînement antagoniste. Dans le cadre de GOAT, GOAT recherche dynamiquement dans l'espace latent des modèles génératifs les stratégies de coordination sous-performantes de la politique d'apprentissage, l'agent coopérateur. GOAT expose le coopérateur à divers scénarios d'interaction complexes, permettant une meilleure généralisation. Il maintient des stratégies de coordination réalistes en corrigeant le modèle génératif afin d'éviter les exploits adverses. Nous avons évalué GOAT avec de vrais partenaires humains, et les résultats montrent des performances de pointe sur le benchmark Overcooked, soulignant sa généralisabilité à un large éventail de comportements humains.