Este artículo explora el uso del Modelado de Recompensa Basado en el Potencial (PBRS) para abordar el problema de la ineficiencia muestral en el Aprendizaje por Refuerzo (AR). Destacamos la dificultad de seleccionar una función latente adecuada y el sesgo inherente al uso de un horizonte finito debido a limitaciones computacionales. A continuación, presentamos una justificación teórica de por qué la selección de una función de valor óptimo como función latente mejora el rendimiento. Analizamos el sesgo inducido por un horizonte finito en PBRS y, mediante la abstracción para aproximar la función de valor óptimo, evaluamos la eficiencia muestral y el impacto en el rendimiento de PBRS en cuatro entornos, incluyendo una tarea de navegación dirigida por objetivos y tres juegos de Entorno de Aprendizaje Arcade (ALE). Los resultados experimentales demuestran que una red simple completamente conectada puede alcanzar un rendimiento comparable al de una solución basada en CNN.