Este artículo aborda un problema clave en el aprendizaje por refuerzo mediante retroalimentación basada en resultados: cómo asignar crédito a las acciones correctas cuando las recompensas se observan solo en los puntos finales de una trayectoria. Proporcionamos el primer análisis exhaustivo de este problema en un contexto de aprendizaje por refuerzo en línea mediante aproximación de funciones generales. Desarrollamos un algoritmo con eficiencia muestral demostrable que alcanza una complejidad muestral de $\widetilde{O}({C_{\rm cov} H^3}/{\epsilon^2})$, donde $C_{\rm cov}$ es el coeficiente de cobertura del MDP subyacente. Al aprovechar la aproximación de funciones generales, logramos un funcionamiento eficiente incluso en espacios de estados grandes o infinitos donde los métodos tabulares fallan, siempre que las funciones de valor y de recompensa puedan expresarse en una clase apropiada de funciones. También caracterizamos los casos en los que la retroalimentación basada en resultados es estadísticamente separable de las recompensas paso a paso, y demostramos que la separación exponencial es inevitable para ciertos MDP. Para MDP deterministas, presentamos un método que simplifica considerablemente el algoritmo al eliminar el supuesto de completitud. Además, ampliamos el enfoque a entornos de retroalimentación basados en preferencias, demostrando que se puede lograr una eficiencia estadística equivalente incluso con información más limitada. Estos resultados constituyen una base teórica para comprender las propiedades estadísticas del aprendizaje de refuerzo basado en resultados.