Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

TurboBias : biais de contexte ASR universel optimisé par un arbre de renforcement de phrases accéléré par GPU

Created by
  • Haebom

Auteur

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg

Contour

Cet article aborde le problème de la reconnaissance de mots-clés spécifiques en reconnaissance automatique de la parole (RAP) contextuelle. Les techniques contextuelles existantes présentent des limites, telles que la nécessité d'un apprentissage supplémentaire du modèle, une vitesse de décodage lente et des types de systèmes RAP limités. Dans cet article, nous proposons un cadre RAP contextuel polyvalent prenant en charge tous les principaux types de modèles RAP, notamment les modèles CTC, Transducer et Attention Encoder-Decoder. Utilisant des arbres de mots boostés accélérés par GPU, le cadre fonctionne en mode de fusion superficielle sans ralentissement du décodage glouton et par recherche de faisceau, même avec jusqu'à 20 000 mots-clés. Les résultats expérimentaux démontrent que la méthode proposée surpasse les techniques contextuelles open source existantes en termes de précision et de vitesse de décodage. Le cadre RAP contextuel proposé est open source dans le cadre de la boîte à outils NeMo.

Takeaways, Limitations

Takeaways:
Présentation d'un cadre général biaisé par le contexte applicable à divers types de modèles ASR.
L'accélération GPU permet de traiter un grand nombre de mots-clés sans ralentissement
Obtenir une précision et une vitesse de décodage supérieures par rapport aux méthodes existantes
Version open source pour une meilleure accessibilité
Limitations:
Les performances du cadre présenté dans cet article sont basées sur un ensemble de données et un ensemble de mots-clés spécifiques, et les performances peuvent varier dans d’autres conditions.
Il peut être appliqué à divers modèles ASR, mais il peut y avoir une marge d'optimisation en fonction du type de modèle.
L’utilisation d’informations contextuelles autres que les mots-clés n’est pas suffisamment prise en compte.
👍