Dans un environnement multi-agents, l'objectif d'un agent est de maximiser sa récompense totale face à son adversaire. Les solutions issues de la théorie des jeux, comme l'équilibre de Nash, peuvent atteindre des performances robustes dans certains environnements, mais elles ne parviennent pas à exploiter les données historiques et observées obtenues lors d'interactions répétées. Les algorithmes de modélisation antagoniste intègrent des techniques d'apprentissage automatique pour exploiter les données disponibles et exploiter les adversaires non optimaux. Cependant, l'efficacité de ces approches dans les jeux à information incomplète est jusqu'à présent limitée. Cet article montre que les approches de modélisation antagoniste existantes ne satisfont pas à une propriété souhaitable simple, même pour des adversaires statiques issus d'une distribution a priori connue. Autrement dit, elles ne garantissent pas que le modèle se rapproche de la véritable stratégie de l'adversaire lorsque le nombre d'itérations du jeu tend vers l'infini. Dans cet article, nous développons un nouvel algorithme qui atteint cette propriété et résout efficacement un problème de minimisation convexe basé sur une représentation de jeu sous forme de séquence utilisant la descente de gradient projetée. Cet algorithme garantit une convergence efficace vers la véritable stratégie de l'adversaire, en utilisant les observations du jeu et, lorsqu'elles sont disponibles, des données historiques supplémentaires.