Dans cet article, nous proposons un cadre d'optimisation déterministe des politiques conditionnée par le bruit (NCDPO) pour résoudre le problème __T17915__ des politiques de diffusion. Les politiques de diffusion peuvent apprendre diverses techniques avec un fort pouvoir expressif, mais elles peuvent générer des trajectoires sous-optimales ou provoquer de graves erreurs en raison du manque et de l'inadéquation des données de démonstration. Les méthodes de réglage fin existantes basées sur l'apprentissage par renforcement peinent à appliquer efficacement l'optimisation déterministe des politiques aux modèles de diffusion en raison de la difficulté de calcul liée à l'estimation des probabilités d'action pendant le processus de débruitage. L'optimisation déterministe des politiques conditionnée par le bruit traite chaque étape de débruitage comme une transformation différentiable conditionnée par le bruit pré-échantillonné, permettant l'estimation et la rétropropagation à travers toutes les étapes de diffusion. Les résultats expérimentaux montrent que l'optimisation déterministe des politiques conditionnée par le bruit surpasse les méthodes existantes en termes d'efficacité d'échantillonnage et de performances finales sur divers benchmarks (y compris le contrôle continu des robots et les scénarios de jeux multi-agents). En particulier, elle atteint une efficacité d'échantillonnage similaire à celle de l'optimisation déterministe des politiques + PPO lors de l'apprentissage à partir de politiques initialisées aléatoirement, et est robuste au nombre d'étapes de diffusion.