En este artículo, proponemos el Despacho Aprendidamente Offline (Offline-LD), un enfoque de aprendizaje por refuerzo offline para el Problema de Programación en el Lugar de Trabajo (JSSP). Para superar la ineficiencia muestral de los métodos existentes de aprendizaje por refuerzo online, la imposibilidad de utilizar las técnicas existentes y la dificultad de la simulación en entornos complejos, adoptamos un enfoque offline que aprende utilizando los datos de programación existentes. Utilizamos una variante enmascarable de la Regresión Cuantil Enmascarable DQN (mQRDQN) y un Actor-Crítico Suave discreto enmascarable (d-mSAC), e introducimos el Aprendizaje Q Conservativo (CQL) y una novedosa técnica de modificación de bonificación de entropía y regularización de recompensas. Los resultados experimentales muestran que el Offline-LD supera al aprendizaje por refuerzo online incluso con soluciones expertas limitadas (100 soluciones generadas por CP), y muestra un rendimiento superior incluso en conjuntos de datos con ruido añadido, lo que aumenta su aplicabilidad a entornos reales.