Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje de refuerzo profundo para redes de inventario: hacia una optimización confiable de políticas

Created by
  • Haebom

Autor

Matías Alvo, Daniel Russo, Yash Kanoria, Minuk Lee

Describir

Este artículo argumenta que existen oportunidades únicas para aplicar el aprendizaje de refuerzo profundo (DRL) a la gestión de inventarios. Para ello, presentamos y validamos experimentalmente dos técnicas complementarias: Optimización de Políticas Diferenciable en Retrospectiva (HDPO) y Redes Neuronales de Grafos (GNN). HDPO optimiza de forma directa y eficiente el rendimiento de las políticas aprovechando gradientes de trayectorias a partir de simulaciones semiempíricas fuera de línea. Demostramos que HDPO es más robusto que el algoritmo REINFORCE y supera significativamente la heurística común de Newsvendor en datos de series temporales del mundo real. Las GNN aprovechan los sesgos inductivos naturales que codifican la estructura de la cadena de suministro, reduciendo eficazmente los requisitos de datos. Además, publicamos el entorno de referencia y el código base para abordar la falta de problemas de referencia estandarizados que dificultan el progreso en la gestión de inventarios.

Takeaways, Limitations

Takeaways:
HDPO se presenta como una técnica de optimización de políticas de gestión de inventario más robusta y eficiente que los métodos de gradiente de políticas convencionales.
Demostramos que GNN se puede utilizar para modelar eficazmente las estructuras de la cadena de suministro y mejorar la eficiencia de los datos.
Proporcionamos un entorno de referencia estandarizado y una base de código para la investigación en el campo de la gestión de inventario, aumentando así la transparencia y la reproducibilidad de la investigación.
Limitations:
Se necesitan más investigaciones para determinar el rendimiento de generalización de la metodología propuesta.
Se requiere una mayor verificación de la aplicabilidad en entornos industriales reales.
Es necesario ampliar aún más la diversidad de entornos de referencia.
👍