Cet article explore l'utilisation du modelage de récompense basé sur le potentiel (PBRS) pour résoudre le problème d'inefficacité des échantillons en apprentissage par renforcement (RL). Nous soulignons la difficulté de sélectionner une fonction latente appropriée et le biais inhérent à l'utilisation d'un horizon fini en raison des limitations de calcul. Nous proposons ensuite une justification théorique expliquant pourquoi le choix d'une fonction de valeur optimale comme fonction latente améliore les performances. Nous analysons le biais induit par un horizon fini en PBRS et, en exploitant l'abstraction pour approximer la fonction de valeur optimale, nous évaluons l'efficacité de l'échantillon et l'impact du PBRS sur les performances dans quatre environnements, dont une tâche de navigation dirigée par un objectif et trois jeux d'arcade (ALE). Les résultats expérimentaux démontrent qu'un réseau simple entièrement connecté peut atteindre des performances comparables à celles d'une solution basée sur un CNN.