Este artículo estudia el problema del aprendizaje de refuerzo inverso de regularización de máxima entropía fuera de línea (MaxEnt-IRL fuera de línea) en el aprendizaje automático, específicamente el modelo de elección discreta dinámica (DDC). El objetivo es recuperar la recompensa o función Q que gobierna el comportamiento del agente a partir de datos de comportamiento fuera de línea. Proponemos un método globalmente convergente basado en gradientes para resolver este problema sin el supuesto restrictivo de recompensas parametrizadas linealmente. La novedad de este estudio radica en la introducción de un marco IRL/DDC basado en minimización de riesgos empíricos (ERM) que evita la necesidad de una estimación explícita de la probabilidad de transición de estado en la ecuación de Bellman. Además, el método propuesto es compatible con técnicas de estimación no paramétrica como las redes neuronales. Por lo tanto, el método propuesto tiene el potencial de extenderse a espacios de estados infinitos de alta dimensión. La idea teórica clave de este estudio es que el residuo de Bellman satisface la condición de Polyak-Lojasiewicz (PL), que es más débil que la convexidad fuerte pero suficiente para garantizar una convergencia global rápida. Una serie de experimentos sintéticos demuestra que el método propuesto supera consistentemente a los métodos de referencia y a las alternativas de última generación.