Para superar las limitaciones de diversos conjuntos de datos de análisis de voz sintética, dado que la distinción entre voz real y sintética cobra cada vez mayor importancia debido al creciente riesgo de información falsa y robo de identidad, proponemos un conjunto de datos de análisis forense del habla que abarca ampliamente muestras de voz real, sintética y parcialmente falsificada, y que contiene múltiples segmentos sintetizados mediante diversos algoritmos de alta calidad. Además, proponemos una Red de Localización Temporal del Habla (TEST) que realiza simultáneamente la verificación de autenticidad, la localización de múltiples segmentos falsos y el reconocimiento de algoritmos sintéticos sin un posprocesamiento complejo. TEST integra eficazmente LSTM y Transformer para extraer representaciones temporales robustas del habla y estima segmentos sintéticos mediante predicción densa sobre características piramidales multiescala. El modelo propuesto alcanza un mAP promedio del 83,55 % y un EER del 5,25 % a nivel de enunciado, y un EER del 1,07 % y una puntuación F1 del 92,19 % a nivel de segmento, lo que destaca su robusta capacidad para el análisis exhaustivo de voz sintética.