[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Análisis forense del habla: hacia el establecimiento y análisis integral de conjuntos de datos sintéticos del habla

Created by
  • Haebom

Autor

Zhoulin Ji, Chenhao Lin, Hang Wang, Chao Shen

Describir

Para superar las limitaciones de diversos conjuntos de datos de análisis de voz sintética, dado que la distinción entre voz real y sintética cobra cada vez mayor importancia debido al creciente riesgo de información falsa y robo de identidad, proponemos un conjunto de datos de análisis forense del habla que abarca ampliamente muestras de voz real, sintética y parcialmente falsificada, y que contiene múltiples segmentos sintetizados mediante diversos algoritmos de alta calidad. Además, proponemos una Red de Localización Temporal del Habla (TEST) que realiza simultáneamente la verificación de autenticidad, la localización de múltiples segmentos falsos y el reconocimiento de algoritmos sintéticos sin un posprocesamiento complejo. TEST integra eficazmente LSTM y Transformer para extraer representaciones temporales robustas del habla y estima segmentos sintéticos mediante predicción densa sobre características piramidales multiescala. El modelo propuesto alcanza un mAP promedio del 83,55 % y un EER del 5,25 % a nivel de enunciado, y un EER del 1,07 % y una puntuación F1 del 92,19 % a nivel de segmento, lo que destaca su robusta capacidad para el análisis exhaustivo de voz sintética.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo conjunto de datos de Speech-Forensics que contiene varios tipos de discurso sintético generado por varios algoritmos de alta calidad.
Proponer una red TEST eficiente que realice simultáneamente la verificación de autenticidad, la detección de la ubicación de segmentos falsos y el reconocimiento de algoritmos sintéticos.
Representa un avance significativo en el campo del análisis del habla sintética, logrando una alta precisión (mAP a nivel de enunciado 83,55%, EER 5,25%; EER a nivel de segmento 1,07%, F1 92,19%).
Proporciona una base útil para futuras investigaciones y aplicaciones prácticas del análisis de voz sintética.
Limitations:
Falta de información específica sobre el tamaño y la diversidad del conjunto de datos (tamaño del conjunto de datos, tipos y proporciones de diferentes algoritmos de síntesis, etc.)
Es necesaria una verificación adicional del rendimiento de generalización del modelo propuesto (resistencia a diversos entornos, ruido, etc.).
Falta de evaluación del desempeño en datos de voz complejos del mundo real (por ejemplo, ruido de fondo, superposición, etc.)
👍