Bài báo này nghiên cứu tác động của việc sử dụng Tỷ lệ tín hiệu trên méo bất biến theo tỷ lệ (SI-SDR) làm thước đo đánh giá và mục tiêu học tập trong tách giọng nói có giám sát khi sử dụng dữ liệu tham chiếu đào tạo có nhiễu, chẳng hạn như WSJ0-2Mix. Việc suy ra SI-SDR bằng dữ liệu tham chiếu có nhiễu cho thấy nhiễu giới hạn SI-SDR có thể đạt được hoặc đưa vào nhiễu không mong muốn trong đầu ra đã tách. Để giải quyết vấn đề này, chúng tôi đề xuất một phương pháp để nâng cao dữ liệu tham chiếu bằng cách sử dụng WHAM! và tăng cường dữ liệu hỗn hợp để đào tạo các mô hình tránh học từ dữ liệu tham chiếu có nhiễu. Hai mô hình được đào tạo trên tập dữ liệu nâng cao được đánh giá bằng cách sử dụng thước đo NISQA.v2 không xâm lấn. Kết quả chứng minh khả năng giảm nhiễu trong giọng nói đã tách, nhưng cho thấy rằng các hiện tượng lạ được đưa vào trong quá trình xử lý dữ liệu tham chiếu có thể hạn chế việc cải thiện chất lượng tổng thể. Một mối tương quan âm giữa SI-SDR và nhiễu nhận thức được đã được tìm thấy trên các bộ thử nghiệm WSJ0-2Mix và Libri2Mix, hỗ trợ cho kết quả suy ra.