본 논문은 일반합 마르코프 게임에서 CCE (Coarse Correlated Equilibrium)로의 수렴 속도를 향상시키는 것을 목표로 한다. 기존의 최적 수렴 속도인 $\mathcal{O}(\log^5 T / T)$에서 $\mathcal{O}(\log T / T)$로 개선하였으며, 이는 CE (Correlated Equilibrium)의 최적 수렴 속도와 동일하다. 또한, 액션 집합 크기에 대한 의존성을 다항식에서 polylogarithmic으로 개선하여 고차원 설정에서 지수적 이점을 제공한다. 본 연구는 적응적 단계 크기 기법을 마르코프 환경에 적용하여 OFTRL (Optimistic Follow-the-Regularized-Leader)을 기반으로 하는 자기-플레이 알고리즘을 제안하며, 이를 통해 CCE로의 가장 빠른 수렴 속도를 달성한다.