다중 에이전트 환경에서 에이전트는 상대 에이전트에 대해 총 보상을 최대화하는 것을 목표로 한다. 내쉬 균형과 같은 게임 이론적 해법은 일부 환경에서 강력한 성능을 얻을 수 있지만, 반복적인 상호 작용에서 얻은 역사적 데이터와 관찰된 데이터를 활용하지 못한다. 상대 모델링 알고리즘은 머신 러닝 기술을 통합하여 이용 가능한 데이터를 활용해 최적화되지 않은 상대를 이용하지만, 불완전 정보 게임에서는 효과가 제한적이다. 본 논문에서는 기존 상대 모델링 접근 방식이 알려진 사전 분포에서 도출된 정적 상대에 대해서도 간단한 바람직한 속성을 만족하지 못함을 보인다. 즉, 게임 반복 횟수가 무한대에 가까워져도 모델이 상대의 실제 전략에 접근한다는 것을 보장하지 못한다. 본 연구에서는 이 속성을 달성할 수 있는 새로운 알고리즘을 개발했다. 이 알고리즘은 투영된 경사 하강법을 사용하여 시퀀스 형태의 게임 표현을 기반으로 볼록 최소화 문제를 해결하여 효율적으로 실행된다. 이 알고리즘은 게임 플레이 관찰과 가능하다면 추가적인 역사적 데이터를 통해 상대의 실제 전략에 효율적으로 수렴하는 것을 보장한다.