Este artículo presenta un método propuesto para abordar el reto de aprender una función de recompensa efectiva en escenarios reales donde las señales de recompensa son extremadamente escasas. El método propuesto lleva a cabo la formación de recompensas utilizando todas las transiciones, incluida la transición de recompensa cero. Específicamente, combina el aprendizaje semisupervisado (SSL) y una novedosa técnica de aumento de datos para aprender representaciones del espacio de trayectorias a partir de la transición de recompensa cero, mejorando así la eficiencia de la formación de recompensas. Los resultados experimentales en juegos de Atari y manipulación de robots demuestran que el método propuesto supera a los métodos basados en aprendizaje supervisado en la inferencia de recompensas y mejora las puntuaciones de los agentes. En particular, en entornos donde las recompensas son aún más escasas, el método propuesto alcanza una puntuación líder en su clase, hasta el doble de la de los métodos existentes. La técnica de aumento de datos de doble entropía propuesta mejora significativamente el rendimiento, alcanzando una puntuación líder en su clase, un 15,8 % superior a la de otros métodos de aumento.