Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SoloSpeech: Mejora de la inteligencia y la calidad en la extracción del habla objetivo mediante un canal generativo en cascada

Created by
  • Haebom

Autor

Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesús Villalba, Najim Dehak

Describir

Este artículo aborda el problema de la Extracción del Habla Objetivo (TSE), que consiste en aislar el habla de un hablante específico de una mezcla de habla de varios hablantes. Los métodos de TSE existentes utilizan principalmente modelos discriminativos, que ofrecen una alta calidad de reconocimiento. Sin embargo, presentan problemas como artefactos, menor naturalidad y sensibilidad a las discrepancias entre los entornos de entrenamiento y prueba. Los modelos generativos, por otro lado, presentan baja calidad de reconocimiento e inteligibilidad. En este artículo, proponemos SoloSpeech, un novedoso proceso de generación en cascada que integra procesos de compresión, extracción, reconstrucción y corrección. En lugar de basarse en la incrustación de hablantes, SoloSpeech utiliza información condicional del espacio latente del audio de referencia para alinearlo con el espacio latente del audio mezclado, evitando así las discrepancias. La evaluación en el conjunto de datos Libri2Mix revela que SoloSpeech supera a los métodos de vanguardia existentes tanto en inteligibilidad como en calidad, y demuestra un excelente rendimiento de generalización a datos no pertenecientes al dominio y a entornos del mundo real.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método TSE que logra un alto rendimiento sin incrustar altavoces.
Mejora de la generación de artefactos, degradación de la naturalidad y problemas de adaptación del dominio de los métodos existentes.
Se logró un nuevo rendimiento de última generación en el conjunto de datos Libri2Mix.
Se demostró un excelente rendimiento de generalización en datos fuera del dominio y entornos del mundo real.
Limitations:
Falta de análisis del coste computacional y la complejidad de SoloSpeech.
Falta de evaluación de robustez para diversos entornos de ruido.
Falta de evaluación de conjuntos de datos adicionales más allá de los conjuntos de datos del mundo real.
👍