Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Bondad de pronunciación sin segmentación

Created by
  • Haebom

Autor

Xinwei Cao, Zijian Fan, Torbj{\o}rn Svendsen, Giampiero Salvi

Describir

Este artículo aborda la detección y diagnóstico de errores de pronunciación (MDD), un componente fundamental de los sistemas de aprendizaje de idiomas asistido por computadora (CALL). En particular, nos centramos en la evaluación de la pronunciación a nivel de fonemas e intentamos superar las limitaciones del método actual de Bondad de Pronunciación (GOP), basado en la segmentación de unidades fonemáticas mediante diccionario. Para ello, proponemos un método GOP autoalineado (GOP-SA) que permite el uso de modelos acústicos basados en CTC y un método GOP sin alineación (GOP-AF) que no requiere alineación. GOP-AF considera todas las alineaciones posibles y presentamos una implementación para la resolución numérica de problemas y un método de normalización que permite su aplicación en diversos modelos acústicos. Comparamos y analizamos el rendimiento de los métodos propuestos mediante experimentos con los conjuntos de datos CMU Kids y Speechocean762, y evaluamos la influencia de la intensidad de pico y la información contextual del modelo acústico. Finalmente, demostramos que los métodos propuestos logran un rendimiento de última generación en la evaluación de la pronunciación a nivel de fonemas al compararlos con estudios recientes basados en el conjunto de datos Speechocean762.

Takeaways, Limitations

Takeaways:
Presentar la posibilidad de mejorar la precisión del sistema de detección y diagnóstico de errores de pronunciación utilizando un modelo acústico basado en CTC.
Mayor flexibilidad del sistema MDD al eliminar la necesidad de presegmentación de unidades fonémicas.
Presentamos un método general de evaluación de la pronunciación aplicable a varios modelos acústicos a través de GOP-AF.
Lograr un rendimiento de última generación en el conjunto de datos speechan762.
Limitations:
La evaluación del desempeño de los métodos propuestos puede limitarse a conjuntos de datos específicos.
Se necesita más investigación sobre su aplicabilidad y eficacia en entornos reales de aprendizaje de idiomas.
GOP-AF puede tener una alta complejidad computacional.
👍