Cet article présente une méthode proposée pour relever le défi de l'apprentissage d'une fonction de récompense efficace dans des scénarios réels où les signaux de récompense sont extrêmement rares. La méthode proposée effectue la formation de la récompense en utilisant toutes les transitions, y compris la transition vers la récompense nulle. Plus précisément, elle combine l'apprentissage semi-supervisé (SSL) et une nouvelle technique d'augmentation des données pour apprendre les représentations de l'espace de trajectoire à partir de la transition vers la récompense nulle, améliorant ainsi l'efficacité de la formation de la récompense. Des résultats expérimentaux sur des jeux Atari et la manipulation de robots démontrent que la méthode proposée surpasse les méthodes basées sur l'apprentissage supervisé en matière d'inférence de récompense et améliore les scores des agents. En particulier, dans des environnements où les récompenses sont encore plus rares, la méthode proposée atteint un score de premier ordre, jusqu'à deux fois supérieur à celui des méthodes existantes. La technique d'augmentation des données à double entropie proposée améliore significativement les performances, atteignant un score de premier ordre supérieur de 15,8 % à celui des autres méthodes d'augmentation.