강화 학습(RL) 에이전트의 일반화 성능은 중요한 문제이며, 훈련 환경에 과적합되는 경향이 있다. 이 문제를 해결하고 일반화 성능을 향상시키기 위해, 에이전트의 신경망 내부 가중치를 기반으로 RL 에이전트의 일반화 점수를 예측하는 새로운 방법론을 제시한다. 이 예측 능력을 활용하여, 향상된 Proximal Policy Optimization (PPO) 알고리즘을 제안하고, 이를 통해 일반화 점수를 높인다. 실험 결과는 개선된 PPO 알고리즘이 기존 버전보다 더 강력한 일반화 성능을 가진 에이전트를 생성함을 보여준다.