다중 에이전트 환경에서 에이전트의 목표는 상대 에이전트를 상대로 총 보상을 최대화하는 것이다. 내쉬 균형과 같은 게임 이론적 해결책을 따르는 것은 일부 환경에서 강력한 성능을 얻을 수 있지만, 반복적인 상호 작용에서 얻은 과거 및 관찰된 데이터를 활용하지 못한다. 적대적 모델링 알고리즘은 기계 학습 기술을 통합하여 가용 데이터를 활용하여 최적화되지 않은 상대를 이용하지만, 불완전 정보 게임에서 이러한 접근 방식의 효과는 제한적이다. 본 논문에서는 기존의 적대적 모델링 접근 방식이 정적 상대조차도 단순한 바람직한 속성을 충족시키지 못함을 보여준다. 즉, 게임 반복 횟수가 무한대에 가까워져도 상대의 실제 전략에 접근한다는 보장이 없다. 본 논문에서는 투영된 경사 하강법을 사용하여 시퀀스 형식 게임 표현을 기반으로 볼록 최소화 문제를 해결함으로써 효율적으로 실행되고, 이 속성을 달성할 수 있는 새로운 알고리즘을 개발한다. 이 알고리즘은 게임 플레이에서 얻은 관찰과 가능하면 추가적인 과거 데이터를 통해 상대의 실제 전략으로 효율적으로 수렴하도록 보장된다.