マルチエージェント環境では、エージェントの目標は、相手エージェントに対抗して総報酬を最大化することです。ナッシュバランスのようなゲーム理論的解決法は、特定の環境で強力なパフォーマンスを得ることができますが、反復的な相互作用によって得られた過去と観測データを利用することは失敗します。相対モデリングアルゴリズムは、機械学習技術を組み込んで利用可能なデータを活用して非最適な相手を活用しますが、不完全な情報ゲームにおけるこのアプローチの効果は現在まで非常に制限されています。この論文は、既存の相対モデリングアプローチが既知の事前分布から抽出された静的相手に対してさえ、単純な望ましい属性を満たしていないことを示しています。つまり、ゲームの繰り返し回数が無限に近づくにつれて、モデルが相手の実際の戦略に近づくことを保証することはできません。この論文では、この属性を達成し、投影された傾斜降下法を使用して、シーケンス型ゲーム表現に基づく凸最小化問題を解き、効率的に実行される新しいアルゴリズムを開発します。このアルゴリズムは、ゲームプレイで得られた観測結果と利用可能であれば、追加の過去のデータを介して相手の実際の戦略に効率的に収束することが保証されています。