Cet article souligne l'importance cruciale d'une abstinence fiable pour les systèmes de génération de recherche augmentée (RAG) dans des domaines critiques pour la sécurité, tels que la santé des femmes, où des réponses incorrectes peuvent être préjudiciables. Nous présentons un modèle basé sur l'énergie (EBM) qui apprend un paysage énergétique lisse pour un corpus sémantique dense de 2,6 millions de questions basées sur des lignes directrices. Ce modèle permet au système de décider de générer ou de s'abstenir. L'EBM est évalué par rapport à la ligne de base softmax calibrée et à l'heuristique de densité des k plus proches voisins (kNN), le cas difficile étant les requêtes proches de distributions sémantiquement difficiles. L'EBM atteint des performances d'abstinence supérieures dans les cas sémantiquement difficiles, avec une aire sous la courbe (AUROC) de 0,961 contre 0,950 pour la ligne de base softmax et une réduction du FPR@95 de 0,331 à 0,235. Bien que les performances soient similaires dans les cas négatifs faciles, l'avantage de l'EBM est plus prononcé dans les distributions critiques pour la sécurité et difficiles. Des études d'ablation complètes utilisant un échantillonnage négatif contrôlé et une exposition équitable aux données démontrent que la robustesse découle principalement du score énergétique de la tête, et que l'inclusion ou l'exclusion de types négatifs spécifiques (difficile, facile ou mixte) affine la limite de décision, mais n'est pas essentielle à la généralisation aux cas difficiles. Ces résultats démontrent que l'auto-évaluation basée sur l'énergie fournit des signaux de confiance plus fiables que la confiance softmax basée sur les probabilités, offrant ainsi une base évolutive et interprétable pour des systèmes RAG sécurisés.