본 논문은 적대적 상대를 가진 마르코프 게임에서의 후회 최소화가 통계적으로나 계산적으로 다루기 어렵다는 최근의 불가능성 결과에도 불구하고, 모든 참가자가 동일한 학습 절차를 채택한다는 가정 하에 후회 최소화가 가능함을 보여주는 최초의 연구입니다. 일반합 마르코프 게임에서 모든 에이전트가 실행할 때 하위 선형 후회 보장을 제공하는 알고리즘을 제시합니다. 이는 스왑 후회에 대한 경계이며, 따라서 상관 평형으로의 수렴을 의미합니다. 제시된 알고리즘은 분산되고 계산적으로 효율적이며 에이전트 간의 통신이 필요하지 않습니다. 핵심 아이디어는 마르코프 게임에서 정책 최적화를 통한 온라인 학습이 본질적으로 에이전트 정책 시퀀스의 경로 길이에 의해 결정되는 알려지지 않은 가중치를 갖는 가중 후회 최소화의 형태로 축소된다는 것입니다. 따라서 경로 길이를 제어하면 충분히 적응적인 알고리즘이 하위 선형 후회 보장을 제공하는 가중 후회 목표로 이어집니다.