Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mejora del GOP en la detección de errores de pronunciación basados ​​en CTC con conocimiento fonológico

Created by
  • Haebom

Autor

Aditya Kamlesh Parikh, Cristian Tejedor-García, Catia Cucchiarini, Helmer Strik

Describir

Este artículo presenta un estudio para mejorar la eficiencia de la Bondad de Pronunciación (GOP), una métrica de medición de la calidad de la pronunciación utilizada en sistemas de entrenamiento de pronunciación asistido por computadora (CAPT). Los GOP existentes se basan en la alineación forzada, que es vulnerable a errores de etiquetado y segmentación debido a variaciones acústicas. Se han propuesto métodos sin alineación, pero son computacionalmente costosos y presentan problemas de degradación del rendimiento con la longitud de las secuencias de fonemas y el tamaño de las listas de fonemas. Por lo tanto, en este artículo, proponemos un GOP sin alineación con capacidad de sustitución que restringe las sustituciones de fonemas en función de los grupos de fonemas y los errores comunes del aprendiz. Evaluamos el método propuesto utilizando dos conjuntos de datos de habla en inglés L2 (My Pronunciation Coach (MPC) y SpeechOcean762) y demostramos que supera a los métodos existentes.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para mejorar la eficiencia del cálculo de GOP sin clasificación.
Se mejoró la precisión al tener en cuenta los grupos de fonemas y los errores comunes de los estudiantes.
Validamos su rendimiento en varios conjuntos de datos, incluidos datos del habla de los niños.
Puede contribuir a aumentar la practicidad del sistema CAPT.
Limitations:
El grado de mejora del rendimiento del método propuesto puede variar según el conjunto de datos.
Se necesita investigación adicional sobre idiomas y conjuntos de datos más diversos.
Tal vez se necesiten más investigaciones sobre la agrupación de fonemas y las definiciones de errores comunes de los estudiantes.
👍