본 논문은 단일 에이전트 강화 학습에서 널리 사용되는 정책 경사 방법을 2인 제로섬 불완전 정보 확장형 게임(EFG)에 적용하는 가능성을 연구합니다. 기존 확장형 게임 방법들은 반실제적 값을 근사하는 데 의존하는 반면, 정책 경사 방법은 이와 호환되지 않습니다. 본 논문에서는 정책 경사 방법을 이용하여 자기 플레이에서 규제된 내쉬 균형으로의 최적 반복 수렴을 보장하는 결과를 처음으로 제시합니다. 이는 정책 경사 방법이 확장형 게임에서도 이론적으로 보장된 수렴성을 가지며, 확률적 궤적 피드백을 효율적으로 사용하고 중요도 샘플링 보정을 피할 수 있음을 시사합니다.