Este estudio utilizó tecnología de reconocimiento automático del habla (ASR) para la evaluación objetiva y escalable del trastorno del pensamiento formal (FTD), un síntoma central del trastorno del espectro esquizofrénico. Para superar las limitaciones de las escalas de evaluación clínica existentes, se analizaron las características lingüísticas y temporales del habla obtenidas mediante ASR, especialmente los movimientos de pausa, y se utilizaron para predecir la gravedad del FTD. Utilizando tres conjuntos de datos (diarios personales naturales, descripciones estructuradas de imágenes e historias de sueños), se realizó un análisis de regresión de vectores de soporte (SVR) combinando las características relacionadas con las pausas y las medidas de consistencia semántica existentes. Como resultado, se confirmó que las características de las pausas por sí solas podían predecir considerablemente la gravedad del FTD, y el modelo que integró las características de las pausas y las medidas de consistencia semántica mostró un mejor rendimiento de predicción que el modelo que solo consideró la semántica (coeficiente de correlación máximo ρ = 0,649, AUC = 83,71%). Estos resultados sugieren que un marco que combina el análisis temporal y semántico puede mejorar la evaluación del lenguaje desorganizado y contribuir al desarrollo del análisis automático del habla en la psicosis.