Cet article souligne la nécessité de métriques spécifiques aux tâches pour un déploiement fiable des modèles linguistiques à grande échelle, de plus en plus utilisés dans les applications réelles. Si les critères d'incertitude existants, basés sur la prédiction à critères séparés, offrent une couverture de précision personnalisée, ils ne parviennent pas à identifier les valeurs aberrantes des données incertaines qui violent l'hypothèse d'interchangeabilité, ce qui conduit à des taux d'erreur d'application illimités et à des ensembles de prédiction peu pratiques. Par conséquent, dans cet article, nous proposons une nouvelle approche appelée incertitude des critères sélectifs (SConU). SConU est la première à mettre en œuvre un test de signification permettant de déterminer si un échantillon donné s'écarte de la distribution d'incertitude de l'ensemble d'étalonnage à un certain niveau de risque gérable, en développant deux valeurs p de critère. Cette approche permet non seulement de contrôler strictement les taux d'erreur d'application, mais aussi d'améliorer l'efficacité de la prédiction dans des contextes mono-domaines et interdisciplinaires. De plus, nous analysons en détail les composants de la procédure de critère pour approximer la couverture conditionnelle, en particulier dans les tâches de questions-réponses à enjeux élevés.