Cet article étudie le problème de l'apprentissage par renforcement inverse par régularisation d'entropie maximale hors ligne (MaxEnt-IRL hors ligne) en apprentissage automatique, et plus particulièrement le modèle de choix discret dynamique (DDC). L'objectif est de récupérer la fonction de récompense ou fonction Q qui régit le comportement des agents à partir de données comportementales hors ligne. Nous proposons une méthode basée sur un gradient globalement convergent pour résoudre ce problème sans l'hypothèse restrictive de récompenses linéairement paramétrées. La nouveauté de cette étude réside dans l'introduction d'un cadre IRL/DDC basé sur la minimisation empirique des risques (ERM) qui évite la nécessité d'une estimation explicite de la probabilité de transition d'état dans l'équation de Bellman. De plus, la méthode proposée est compatible avec les techniques d'estimation non paramétriques telles que les réseaux de neurones. Par conséquent, la méthode proposée a le potentiel d'être étendue aux espaces d'état infinis de grande dimension. L'idée théorique clé de cette étude est que le résidu de Bellman satisfait la condition de Polyak-Lojasiewicz (PL), qui est plus faible que la convexité forte mais suffisante pour garantir une convergence globale rapide. Une série d’expériences synthétiques démontre que la méthode proposée surpasse systématiquement les méthodes de référence et les alternatives de pointe.