Este artículo investiga el impacto del uso de la relación señal-distorsión invariante de escala (SI-SDR) como métrica de evaluación y objetivo de aprendizaje en la separación supervisada del habla al utilizar datos de referencia de entrenamiento con ruido, como WSJ0-2Mix. La obtención de SI-SDR a partir de datos de referencia con ruido revela que el ruido limita la SI-SDR alcanzable o introduce ruido no deseado en la salida separada. Para abordar esto, proponemos un método para mejorar los datos de referencia utilizando WHAM! y aumentar los datos mixtos para entrenar modelos que eviten el aprendizaje a partir de datos de referencia con ruido. Dos modelos entrenados con el conjunto de datos mejorado se evalúan utilizando la métrica no invasiva NISQA.v2. Los resultados demuestran una reducción del ruido en el habla separada, pero sugieren que los artefactos introducidos durante el procesamiento de los datos de referencia pueden limitar la mejora general de la calidad. Se encontró una correlación negativa entre SI-SDR y el ruido percibido en los conjuntos de prueba WSJ0-2Mix y Libri2Mix, lo que respalda los resultados de la derivación.