Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Evaluación de puntuaciones GOP basadas en Logit para la detección de errores de pronunciación

Created by
  • Haebom

Autor

Aditya Kamlesh Parikh, Cristian Tejedor-García, Catia Cucchiarini, Helmer Strik

Describir

En este artículo, proponemos y comparamos un método que utiliza puntuaciones GOP basadas en logit en lugar del GOP convencional basado en probabilidad basado en softmax para la evaluación de la pronunciación. Realizamos experimentos en dos corpus de inglés L2 de hablantes de holandés y mandarín, y evaluamos la correlación entre el rendimiento de la clasificación y las puntuaciones del evaluador humano. Los resultados muestran que el método basado en logit supera al GOP basado en probabilidad en el rendimiento de la clasificación, pero el efecto varía según las características del conjunto de datos. El GOP logit máximo se ajusta mejor a la percepción humana, lo que sugiere que un método híbrido que combina varias puntuaciones GOP es eficaz para considerar tanto la probabilidad como las características logit de forma equilibrada. Nuestros resultados sugieren que un método GOP híbrido que incluye modelado de incertidumbre y ponderación por fonemas puede mejorar la evaluación de la pronunciación.

Takeaways, Limitations

Takeaways:
Demostramos que las puntuaciones GOP basadas en logit superan a las puntuaciones GOP basadas en probabilidad en la clasificación de detección de errores de pronunciación.
El GOP logit máximo muestra la correlación más alta con las calificaciones humanas.
Sugerimos que un método GOP híbrido (que combina características probabilísticas y logit) puede contribuir a mejorar el rendimiento de la evaluación de la pronunciación.
Se sugiere que el modelado de incertidumbre y la ponderación específica de cada fonema son factores importantes para mejorar la evaluación de la pronunciación.
Limitations:
La efectividad de los métodos basados ​​en logit varía según las características del conjunto de datos.
El conjunto de datos utilizado está limitado a hablantes de holandés y mandarín de estudiantes de inglés como segunda lengua, lo que puede limitar la generalización a estudiantes de diferentes idiomas y orígenes.
Se necesita más investigación sobre el diseño óptimo y el rendimiento de generalización del método GOP híbrido.
👍