Dans cet article, nous proposons SmoothSinger, un nouveau modèle de diffusion conditionnelle pour la synthèse de voix chantées naturelles de haute qualité. Contrairement au pipeline existant en deux étapes (synthétiser la parole de faible qualité puis la post-traiter à l'aide d'un vocodeur), SmoothSinger adopte un cadre unifié qui améliore directement la parole de faible qualité afin de réduire la distorsion causée par le vocodeur. Il guide le processus de débruitage via une structure à double branche utilisant une parole de référence et ajoute un chemin de suréchantillonnage basse fréquence pour mieux capturer les contours de hauteur et les dépendances spectrales à long terme. De plus, nous utilisons une parole correcte de faible qualité au lieu d'une parole de référence pour résoudre le problème de décalage temporel lors de l'apprentissage. Les résultats expérimentaux sur le jeu de données Opencpop montrent que SmoothSinger atteint des performances de pointe dans les évaluations objectives et subjectives.