Cet article aborde le problème de la reconnaissance de mots-clés spécifiques en reconnaissance automatique de la parole (RAP) contextuelle. Les techniques contextuelles existantes présentent des limites, telles que la nécessité d'un apprentissage supplémentaire du modèle, une vitesse de décodage lente et des types de systèmes RAP limités. Dans cet article, nous proposons un cadre RAP contextuel polyvalent prenant en charge tous les principaux types de modèles RAP, notamment les modèles CTC, Transducer et Attention Encoder-Decoder. Utilisant des arbres de mots boostés accélérés par GPU, le cadre fonctionne en mode de fusion superficielle sans ralentissement du décodage glouton et par recherche de faisceau, même avec jusqu'à 20 000 mots-clés. Les résultats expérimentaux démontrent que la méthode proposée surpasse les techniques contextuelles open source existantes en termes de précision et de vitesse de décodage. Le cadre RAP contextuel proposé est open source dans le cadre de la boîte à outils NeMo.