Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PARCO : reconnaissance automatique de la parole (ASR) contextuelle robuste augmentée par phonèmes via la désambiguïsation d'entités contrastives

Created by
  • Haebom

Auteur

Jiajun He, Naoki Sawada, Koichi Miyazaki, Tomoki Toda

Contour

Cet article propose une reconnaissance vocale automatique contextuelle robuste augmentée par phonèmes via la désambiguïsation contrastive des entités (PARCO) pour relever les défis rencontrés par les systèmes de reconnaissance automatique de la parole (ASR), qui peinent à gérer les entités nommées spécifiques à un domaine, en particulier les homonymes. PARCO intègre un codage sensible aux phonèmes, une désambiguïsation contrastive des entités, une supervision au niveau de l'entité et un filtrage hiérarchique des entités pour améliorer la discrimination vocale, assurer une détection complète des entités et réduire les faux positifs en cas d'incertitude. Il atteint un taux d'erreur de caractère (CER) de 4,22 % sur l'ensemble de données chinois AISHELL-1 et un taux d'erreur de mot (WER) de 11,14 % sur l'ensemble de données anglais DATA2 sous 1 000 distracteurs, surpassant ainsi considérablement les méthodes existantes. Il démontre également de solides améliorations de performances sur des ensembles de données spécifiques à un domaine tels que THCHS-30 et LibriSpeech.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouveau modèle ASR qui résout efficacement le problème des homonymes en utilisant des informations au niveau des phonèmes.
Nous avons amélioré la précision et la stabilité de la reconnaissance d’objets grâce à l’apprentissage contrastif et au filtrage hiérarchique.
Nous avons prouvé que notre méthode est plus performante que les méthodes existantes sur divers ensembles de données.
Limitations:
Il manque une analyse de la complexité informatique et de la consommation de ressources du modèle proposé.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation dans différents langages et domaines.
Une évaluation plus approfondie de la robustesse dans des environnements réels est nécessaire.
👍