Cet article propose une nouvelle méthode d'apprentissage par renforcement inverse (IRL) qui s'attaque à la rigidité des structures de récompense fixes et à l'inflexibilité de la régulation implicite des récompenses. Basée sur le cadre IRL à entropie maximale, elle intègre un régularisateur de différence temporelle au carré (TD) avec une cible adaptative qui évolue dynamiquement pendant l'apprentissage, imposant des limites adaptatives aux récompenses restaurées et facilitant une prise de décision robuste. Afin de recueillir des informations plus riches sur les gains, l'apprentissage par renforcement distributionnel est intégré au processus d'apprentissage. Expérimentalement, la méthode proposée atteint des performances de niveau expert sur la tâche complexe MuJoCo et surpasse les méthodes de base sur les tâches humanoïdes lors de trois démonstrations. Des expériences approfondies et des études d'ablation valident l'efficacité de cette méthode et apportent un éclairage sur la dynamique de la récompense dans l'apprentissage par imitation.