Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉValuation des scores GOP basés sur Logit pour la détection des erreurs de prononciation

Created by
  • Haebom

Auteur

Aditya Kamlesh Parikh, Cristian Tejedor-Garcia, Catia Cucchiarini, Helmer Strik

Contour

Dans cet article, nous proposons et comparons une méthode utilisant des scores GOP logit au lieu du GOP probabiliste softmax conventionnel pour l'évaluation de la prononciation. Nous menons des expériences sur deux corpus d'anglais L2 de locuteurs néerlandais et mandarin, et évaluons la corrélation entre les performances de classification et les scores de l'évaluateur humain. Les résultats montrent que la méthode logit surpasse le GOP probabiliste en termes de performances de classification, mais l'effet varie selon les caractéristiques de l'ensemble de données. Le GOP logit maximal correspond le mieux à la perception humaine, ce qui suggère qu'une méthode hybride combinant différents scores GOP est efficace pour prendre en compte à la fois les caractéristiques probabilistes et logit de manière équilibrée. Nos résultats suggèrent qu'une méthode GOP hybride incluant la modélisation de l'incertitude et la pondération phonémique peut améliorer l'évaluation de la prononciation.

Takeaways, Limitations

Takeaways:
Nous montrons que les scores GOP basés sur le logit surpassent les scores GOP basés sur la probabilité dans la classification de détection des erreurs de prononciation.
Le GOP logit maximal montre la corrélation la plus élevée avec les notes humaines.
Nous suggérons qu’une méthode GOP hybride (combinant des caractéristiques probabilistes et logit) peut contribuer à améliorer les performances de l’évaluation de la prononciation.
Suggérant que la modélisation de l’incertitude et la pondération spécifique aux phonèmes sont des facteurs importants pour améliorer l’évaluation de la prononciation.
Limitations:
L’efficacité des méthodes basées sur le logit varie en fonction des caractéristiques de l’ensemble de données.
L'ensemble de données utilisé est limité aux locuteurs néerlandais et mandarin des apprenants d'anglais L2, ce qui peut limiter la généralisabilité aux apprenants de langues et d'horizons différents.
Des recherches supplémentaires sont nécessaires sur la conception optimale et les performances de généralisation de la méthode GOP hybride.
👍