신경망의 강력한 성능을 활용하여 강화 학습(RL)은 많은 어려운 과제를 성공적으로 해결했지만, 과적합 경향이 있다. 예를 들어, 훈련된 RL 모델은 배경색 변경과 같은 사소한 변화에도 일반화에 실패한다. 이를 해결하기 위해, 본 논문은 인간의 사전 지식 없이 에이전트가 기본적인 의미를 자발적으로 학습하도록 하는 이중 에이전트 적대적 정책 학습 프레임워크를 제안한다. 이 프레임워크는 두 에이전트 간의 게임 과정을 포함하며, 각 에이전트는 상대방의 정책에 대한 교란의 영향을 최대화하는 동시에 이러한 교란에 대한 자체 안정성을 유지하려고 한다. Procgen 벤치마크에 대한 광범위한 실험 결과는 적대적 프로세스가 두 에이전트의 일반화 성능을 크게 향상시키고, 다양한 RL 알고리즘(예: PPO)에도 적용될 수 있음을 보여준다. 적대적 프레임워크를 통해 RL 에이전트는 기준 방법을 크게 능가하며, 특히 어려운 수준의 과제에서 딥 강화 학습의 일반화 능력에서 중요한 진전을 이룬다.