Cet article étudie l'impact de l'utilisation du rapport signal/distorsion invariant à l'échelle (SI-SDR) comme mesure d'évaluation et objectif d'apprentissage en séparation vocale supervisée, avec des données de référence d'apprentissage bruyantes, telles que WSJ0-2Mix. La dérivation du SI-SDR à partir de données de référence bruyantes révèle que le bruit limite le SI-SDR atteignable ou introduit du bruit indésirable dans la sortie séparée. Pour résoudre ce problème, nous proposons une méthode permettant d'améliorer les données de référence à l'aide de WHAM! et d'augmenter les données mixtes pour entraîner des modèles évitant l'apprentissage à partir de données de référence bruyantes. Deux modèles entraînés sur l'ensemble de données amélioré sont évalués à l'aide de la mesure non invasive NISQA.v2. Les résultats démontrent une réduction du bruit dans la parole séparée, mais suggèrent que les artefacts introduits lors du traitement des données de référence peuvent limiter l'amélioration globale de la qualité. Une corrélation négative entre le SI-SDR et le bruit perçu a été constatée sur les ensembles de tests WSJ0-2Mix et Libri2Mix, corroborant les résultats de la dérivation.