Este artículo argumenta que existen oportunidades únicas para aplicar el aprendizaje de refuerzo profundo (DRL) a la gestión de inventarios. Para ello, presentamos y validamos experimentalmente dos técnicas complementarias: Optimización de Políticas Diferenciable en Retrospectiva (HDPO) y Redes Neuronales de Grafos (GNN). HDPO optimiza de forma directa y eficiente el rendimiento de las políticas aprovechando gradientes de trayectorias a partir de simulaciones semiempíricas fuera de línea. Demostramos que HDPO es más robusto que el algoritmo REINFORCE y supera significativamente la heurística común de Newsvendor en datos de series temporales del mundo real. Las GNN aprovechan los sesgos inductivos naturales que codifican la estructura de la cadena de suministro, reduciendo eficazmente los requisitos de datos. Además, publicamos el entorno de referencia y el código base para abordar la falta de problemas de referencia estandarizados que dificultan el progreso en la gestión de inventarios.