본 논문은 심층 강화 학습(DRL)을 재고 관리에 적용하는 데 있어 독특한 기회가 존재함을 주장한다. 이를 위해 두 가지 상호 보완적인 기법인 HDPO(Hindsight Differentiable Policy Optimization)와 GNN(Graph Neural Networks)을 제시하고 실험적으로 검증한다. HDPO는 오프라인 반실험 시뮬레이션의 경로별 기울기를 사용하여 정책 성능을 직접적이고 효율적으로 최적화하며, REINFORCE 알고리즘보다 강건하고 실제 시계열 데이터를 사용하는 문제에서 일반적인 뉴스벤더 휴리스틱보다 성능이 훨씬 우수함을 보여준다. GNN은 공급망 구조를 인코딩하는 자연스러운 귀납적 편향으로 활용되어 데이터 요구량을 줄이는 효과를 보인다. 또한, 재고 관리 분야의 발전을 저해하는 표준화된 벤치마크 문제의 부재를 해결하기 위해 벤치마크 환경과 코드베이스를 오픈소스로 공개한다.