Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Un estudio de la relación señal-distorsión invariante de escala en la separación del habla con referencias ruidosas

Created by
  • Haebom

Autor

Simon Dahl Jepsen, Mads Gr{\ae}sb{\o}ll Christensen, Jesper Rindom Jensen

Describir

Este artículo investiga el impacto del uso de la relación señal-distorsión invariante de escala (SI-SDR) como métrica de evaluación y objetivo de aprendizaje en la separación supervisada del habla al utilizar datos de referencia de entrenamiento con ruido, como WSJ0-2Mix. La obtención de SI-SDR a partir de datos de referencia con ruido revela que el ruido limita la SI-SDR alcanzable o introduce ruido no deseado en la salida separada. Para abordar esto, proponemos un método para mejorar los datos de referencia utilizando WHAM! y aumentar los datos mixtos para entrenar modelos que eviten el aprendizaje a partir de datos de referencia con ruido. Dos modelos entrenados con el conjunto de datos mejorado se evalúan utilizando la métrica no invasiva NISQA.v2. Los resultados demuestran una reducción del ruido en el habla separada, pero sugieren que los artefactos introducidos durante el procesamiento de los datos de referencia pueden limitar la mejora general de la calidad. Se encontró una correlación negativa entre SI-SDR y el ruido percibido en los conjuntos de prueba WSJ0-2Mix y Libri2Mix, lo que respalda los resultados de la derivación.

Takeaways, Limitations

Takeaways: Presentamos los desafíos encontrados al usar SI-SDR como objetivo de aprendizaje con datos de referencia ruidosos, y la eficacia de las técnicas de mejora y aumento de datos de referencia para abordar estos desafíos. Confirmamos experimentalmente una correlación negativa entre SI-SDR y el ruido percibido.
Limitations: Durante el procesamiento de los datos de referencia, podrían introducirse artefactos que limiten la mejora general de la calidad del sonido. Se requiere más investigación para determinar si el método propuesto es eficaz para todo tipo de ruido.
👍