본 논문은 기존의 강화학습 방법인 Proximal Policy Optimization (PPO)을 개선한 Post-Decision Proximal Policy Optimization (PDPPO)를 제시합니다. PDPPO는 상태 전이 과정을 결정적 단계(post-decision state 도출)와 확률적 단계(다음 상태 도출)로 나누고, post-decision state와 이중 비평가(dual critics)를 활용하여 문제의 차원을 줄이고 가치 함수 추정의 정확도를 높입니다. 로트 사이징 문제를 예시로 사용하여, 불확실한 수요 및 비용 매개변수 하에서 생산, 배송 이행, 재고 수준을 최적화하는 것을 목표로 합니다. 다양한 환경과 설정에서 PDPPO의 성능을 평가한 결과, 특정 시나리오에서 이중 비평가 구조를 사용한 PDPPO는 기존 PPO보다 최대 보상을 거의 두 배 달성하고, 더 적은 에피소드 반복 횟수로 더 빠르고 일관된 학습을 보였습니다. 평균적으로 PDPPO는 상태 전이에 확률적 요소가 있는 환경에서 PPO보다 성능이 우수했습니다. 이는 post-decision state 사용의 이점을 뒷받침하며, 가치 함수 근사에 post-decision state를 통합하면 고차원적이고 확률적인 환경에서 더 정확하고 효율적인 학습이 가능함을 보여줍니다.