본 논문은 비전이적 제로섬 게임에서 내쉬균형(NE)을 근사하기 위해 정책 집단을 유지하는 접근 방식을 제안합니다. 기존 PSRO 알고리즘의 한계점인 초기 정책 설정 방식(무작위 초기화 또는 단일 이력 정책 상속)을 개선하기 위해, Nash Policy Fusion을 도입한 Fusion-PSRO 알고리즘을 제시합니다. Nash Policy Fusion은 과거 정책들의 가중 이동 평균을 활용하여 메타-NE에 근접한 초기 정책을 생성하고, 이를 통해 최적 반응(BR) 훈련을 개선합니다. 실험 결과, Fusion-PSRO는 기존 방식보다 낮은 착취 가능성을 달성하여 초기 정책 설정 문제를 완화함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
비전이적 제로섬 게임에서 더욱 효율적인 내쉬균형 근사 방법을 제시합니다.
◦
Nash Policy Fusion을 통해 기존 PSRO 알고리즘의 초기 정책 설정 문제를 해결합니다.
◦
메타-NE를 기반으로 과거 정책을 효과적으로 활용하여 정책 집단의 질을 향상시킵니다.
◦
실험 결과를 통해 Fusion-PSRO의 우수성을 검증합니다.
•
한계점:
◦
제안된 알고리즘의 성능이 특정 벤치마크에 국한될 가능성이 있습니다.
◦
Nash Policy Fusion의 가중치 조정 방식에 대한 추가적인 분석이 필요할 수 있습니다.
◦
더욱 복잡한 게임 환경이나 대규모 게임에 대한 적용 가능성에 대한 추가적인 연구가 필요합니다.