Proximal Policy Optimization (PPO) 알고리즘의 안정적이고 효율적인 학습을 위해 정확한 이점 추정치가 중요하지만, 원시 이점 신호는 높은 분산, 노이즈, 척도 관련 문제를 가지고 있습니다. 본 논문에서는 이점 추정치를 동적으로 비선형적으로 조정하는 Advantage Modulation PPO (AM-PPO)를 제시합니다. AM-PPO는 이점 신호의 놈, 분산, 사전 정의된 목표 포화 수준 등의 통계적 특성에 기반하여 스케일링 요소를 동적으로 조정하는 알파 컨트롤러를 사용합니다. tanh 기반 게이팅 함수를 통해 이점 신호를 재구성하여 기울기 업데이트를 안정화하고 정책 기울기 지형의 조건을 개선합니다. 또한, 일관되고 적응적으로 조건화된 학습 목표를 제공하여 가치 함수 학습에도 영향을 미칩니다. 연속 제어 벤치마크 실험 결과, AM-PPO는 우수한 보상 궤적을 달성하고, 지속적인 학습 진행을 보이며, 적응형 최적화기에서 필요한 클리핑을 크게 줄였습니다.