Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Interpolación de identidades de hablantes en el espacio de incrustación para la expansión de datos

Created by
  • Haebom

Autor

Tianchi Liu, Ruijie Tao, Qiongqiong Wang, Yidi Jiang, Hardik B. Sailor, Ke Zhang, Jingru Lin, Haizhou Li

Describir

Para abordar las limitaciones de los sistemas de autenticación de hablantes basados ​​en aprendizaje profundo, que dependen en gran medida del acceso a grandes y diversos conjuntos de datos de hablantes, este documento propone INSIDE (Interpolating Speaker Identities in Embedding Space), un novedoso método de aumento de datos que sintetiza nuevos identificadores de hablantes mediante la interpolación entre incrustaciones de hablantes existentes. INSIDE selecciona pares de incrustaciones de hablantes cercanas de un espacio de incrustación de hablantes preentrenado y calcula una incrustación intermedia mediante interpolación lineal esférica. Estas incrustaciones interpoladas se introducen en un sistema de síntesis de voz para generar las formas de onda de voz correspondientes. Los datos resultantes se combinan luego con el conjunto de datos original para entrenar submodelos. Los resultados experimentales demuestran que los modelos entrenados con datos aumentados por INSIDE superan a los modelos entrenados únicamente con datos reales, logrando ganancias de rendimiento relativas del 3,06% al 5,24% en la autenticación del hablante. La clasificación por género también demuestra una ganancia de rendimiento relativa del 13,44%. INSIDE es compatible con otras técnicas de aumento, lo que lo convierte en un complemento flexible y escalable a los procesos de capacitación existentes.

Takeaways, Limitations

Takeaways:
Presentamos una técnica eficaz de aumento de datos que puede mejorar el rendimiento de la autenticación de hablantes basada en aprendizaje profundo y tareas relacionadas incluso con datos limitados.
También demuestra aplicabilidad a otras tareas, como la clasificación de género, además de la autenticación del hablante.
Un método flexible y escalable que se puede integrar fácilmente en los procesos de formación existentes.
Limitations:
Es posible que las incrustaciones de altavoces interpolados no reflejen perfectamente las características de los altavoces reales.
La calidad de los datos generados puede verse afectada por el rendimiento del sistema de síntesis de voz.
Es posible que se necesiten consideraciones adicionales con respecto a cuestiones de privacidad (como la posibilidad de que se filtre información personal durante la síntesis de datos).
👍