본 논문은 TRPO와 PPO와 같은 최신 정책 경사 알고리즘이 일반적인 정책 경사 알고리즘보다 우수한 성능을 보이는 이유에 대해 기존의 믿음에 의문을 제기합니다. 기존에는 근사적인 신뢰 영역을 강화하는 것이 실제로 안정적인 정책 개선으로 이어진다고 믿었지만, 본 논문은 각 반복에서 더 많은 값 업데이트 단계를 통해 향상된 값 추정 정확도가 더 중요한 요소임을 보여줍니다. 일반적인 정책 경사 알고리즘에 단순히 값 업데이트 단계의 수를 늘리는 것만으로도, 모든 표준 연속 제어 벤치마크 환경에서 PPO와 비슷하거나 더 나은 성능을 달성할 수 있음을 실험적으로 증명합니다. 또한, 이러한 간단한 변경은 하이퍼파라미터 선택에 훨씬 더 강건하여 RL 알고리즘이 더 효과적이고 사용하기 쉬워질 가능성을 제시합니다.