本論文は,遅延補償においても効率的に学習する生物学的神経系のメカニズムを模倣し,資源制約環境や非微分可能成分を含むシステムにも適用可能な新しいノイズベースの学習規則を提示する。既存の補償調整ヘブ学習(RMHL)の制限である時間遅延と階層的処理の問題を解決するために、補償予測誤差を最適化目標として使用し、適格性追跡を統合して後方の信用割当を可能にするアルゴリズムを提案します。この方法はローカル情報のみを使用し、強化学習課題(即時および遅延補償)がRMHLより優れており、逆伝播(BP)と同様の性能を達成することを実験的に検証します。収束速度は遅いが、エネルギー効率と生物学的妥当性が重要な低電力適応システムに適用可能性を示している。また、ドーパミン様シグナルとシナプス確率が生物学的ネットワーク学習に寄与するメカニズムについての洞察を提供します。