Để Khắc phục những hạn chế của nhiều bộ dữ liệu phân tích giọng nói tổng hợp, khi việc phân biệt giữa giọng nói thật và giọng nói tổng hợp ngày càng trở nên quan trọng do nguy cơ thông tin giả mạo và đánh cắp danh tính ngày càng tăng, chúng tôi đề xuất một bộ dữ liệu Speech-Forensics bao gồm toàn diện các mẫu giọng nói thật, tổng hợp và giả mạo một phần, chứa nhiều phân đoạn được tổng hợp bởi nhiều thuật toán chất lượng cao khác nhau. Ngoài ra, chúng tôi đề xuất một Mạng Định vị Giọng nói Tạm thời (TEST) đồng thời thực hiện xác minh tính xác thực, định vị nhiều phân đoạn giả mạo và nhận dạng các thuật toán tổng hợp mà không cần xử lý hậu kỳ phức tạp. TEST tích hợp hiệu quả LSTM và Transformer để trích xuất các biểu diễn giọng nói tạm thời mạnh mẽ và ước tính các phân đoạn tổng hợp bằng cách sử dụng dự đoán dày đặc trên các đặc trưng kim tự tháp đa tỷ lệ. Mô hình đề xuất đạt được mAP trung bình là 83,55% và EER là 5,25% ở cấp độ lời nói, và EER là 1,07% và điểm F1 là 92,19% ở cấp độ phân đoạn, làm nổi bật khả năng mạnh mẽ của nó trong việc phân tích toàn diện giọng nói tổng hợp.