Este artículo presenta una novedosa regla de aprendizaje basada en ruido que imita los mecanismos de los sistemas neuronales biológicos, que aprenden eficientemente de recompensas retrasadas y es aplicable incluso en entornos con recursos limitados o sistemas con componentes no diferenciables. Para abordar las limitaciones del aprendizaje hebb regulado por recompensa (RMHL) tradicional, que implica retrasos temporales y procesamiento jerárquico, proponemos un algoritmo que utiliza el error de predicción de recompensa como objetivo de optimización e incorpora una traza de elegibilidad para permitir la asignación retrospectiva de créditos. Este método utiliza únicamente información local y demuestra experimentalmente que supera a RMHL y alcanza un rendimiento comparable a la retropropagación (BP) en tareas de aprendizaje por refuerzo (tanto con recompensas inmediatas como retrasadas). Aunque su velocidad de convergencia es lenta, demuestra su aplicabilidad a sistemas adaptativos de bajo consumo, donde la eficiencia energética y la plausibilidad biológica son cruciales. Además, proporciona información sobre los mecanismos por los cuales las señales similares a la dopamina y la estocasticidad sináptica contribuyen al aprendizaje en redes biológicas.