Cet article présente une nouvelle méthode, « MetaGen Blended RAG », visant à relever les défis de la génération augmentée de données (RAG) sur des ensembles de données spécifiques à un domaine : isolés derrière des pare-feu et riches en terminologie complexe et spécialisée, non rencontrée lors du pré-apprentissage LLM. Pour relever trois défis majeurs des RAG existants – la variation sémantique interdomaine, le coût du réglage fin et le manque de généralisation, ainsi que la difficulté d'atteindre une précision zéro-shot – nous proposons une méthode pour améliorer la récupération sémantique grâce à un pipeline de génération de métadonnées et un index de requête hybride utilisant des vecteurs denses et épars. En exploitant les concepts clés, les sujets et les abréviations pour générer un index sémantique riche en métadonnées et une requête hybride améliorée, notre méthode atteint des performances robustes et évolutives sans réglage fin. Elle surpasse les modèles de base RAG zéro-shot existants sur les ensembles de données PubMedQA, SQuAD et NQ, et rivalise même avec les modèles affinés. Il s’agit d’une nouvelle approche pour construire des systèmes de recherche sémantique avec une généralisation supérieure dans tous les domaines.