En un entorno multiagente, el objetivo de un agente es maximizar su recompensa total frente a su oponente. Las soluciones basadas en la teoría de juegos, como el equilibrio de Nash, pueden lograr un rendimiento robusto en ciertos entornos, pero no aprovechan los datos históricos y observados obtenidos mediante interacciones repetidas. Los algoritmos de modelado adversarial incorporan técnicas de aprendizaje automático para explotar los datos disponibles y así explotar a oponentes no óptimos, pero la eficacia de estos enfoques en juegos con información incompleta ha sido limitada hasta la fecha. Este artículo demuestra que los enfoques de modelado adversarial existentes no satisfacen una propiedad deseable simple, incluso para oponentes estáticos extraídos de una distribución previa conocida. Es decir, no garantizan que el modelo se aproxime a la estrategia real del oponente a medida que el número de iteraciones del juego se acerca al infinito. En este artículo, desarrollamos un nuevo algoritmo que cumple esta propiedad y resuelve eficientemente un problema de minimización convexa basado en una representación del juego en forma de secuencia mediante descenso de gradiente proyectado. Este algoritmo garantiza una convergencia eficiente a la estrategia real del oponente, utilizando observaciones del juego y, cuando estén disponibles, datos históricos adicionales.