Cet article présente une nouvelle règle d'apprentissage basée sur le bruit qui imite les mécanismes des systèmes neuronaux biologiques, qui apprennent efficacement à partir de récompenses différées, et est applicable même dans des environnements à ressources limitées ou des systèmes contenant des composants non différentiables. Pour pallier les limites de l'apprentissage Hebb régulé par la récompense (RMHL) traditionnel, qui implique des délais et un traitement hiérarchique, nous proposons un algorithme qui utilise l'erreur de prédiction de récompense comme objectif d'optimisation et intègre une trace d'éligibilité pour permettre l'attribution rétrospective de crédits. Cette méthode utilise uniquement des informations locales et démontre expérimentalement qu'elle surpasse RMHL et atteint des performances comparables à la rétropropagation (BP) dans les tâches d'apprentissage par renforcement (récompenses immédiates et différées). Bien que sa vitesse de convergence soit lente, elle démontre son applicabilité aux systèmes adaptatifs à faible consommation d'énergie où l'efficacité énergétique et la plausibilité biologique sont cruciales. De plus, elle apporte un éclairage sur les mécanismes par lesquels les signaux de type dopaminergique et la stochasticité synaptique contribuent à l'apprentissage dans les réseaux biologiques.