Bài báo này đề xuất khuôn khổ Mô hình Hiệu quả Chuyển đổi Tính toán (CTEFM-VC) để giải quyết những thách thức trong việc đảm bảo tính tương đồng và tự nhiên của người nói trong chuyển đổi giọng nói zero-shot (VC). CTEF-VC phân tích giọng nói thành nội dung và âm sắc và tái tạo phổ Mel của giọng nói nguồn bằng mô hình khớp dòng có điều kiện. Cụ thể, nó giới thiệu mô hình tổng hợp âm sắc nhận biết ngữ cảnh và hàm mất âm sắc dựa trên độ tương đồng về cấu trúc để nâng cao hiệu suất mô hình hóa âm sắc và độ tự nhiên của giọng nói được tạo ra. Một mô-đun chú ý chéo tích hợp một cách thích ứng các nhúng xác minh người nói khác nhau tận dụng hiệu quả nội dung nguồn và các thành phần âm sắc đích. Kết quả thử nghiệm cho thấy CTEFM-VC vượt trội đáng kể so với các hệ thống VC zero-shot hiện đại, đạt được hiệu suất tiên tiến về độ tương đồng, độ tự nhiên và độ rõ ràng của người nói.