Cet article se concentre sur l'amélioration des performances des modèles linguistiques à grande échelle (MLH) utilisant un contexte externe. Les LH ont du mal à répondre aux questions lorsque le contexte fourni manque d'informations, s'appuyant sur des suppositions infondées ou des connaissances internes. Par conséquent, générer des réponses strictement basées sur le contexte, c'est-à-dire des réponses fondées, est essentiel pour garantir la cohérence factuelle et la fiabilité. Cette étude se concentre sur un mécanisme permettant de détecter si une question donnée est fondée sur le contexte fourni avant de générer la réponse LH coûteuse. Un tel mécanisme de détection peut réduire considérablement le temps d'inférence et la consommation de ressources. Nous démontrons que des modèles d'encodeurs légers, spécifiques à des tâches, tels que RoBERTa et NomicBERT, peuvent être affinés sur des ensembles de données organisés pour atteindre une précision comparable à celle des LH de pointe tels que Llama3 8B et GPT4o, tout en réduisant la latence d'inférence de plusieurs ordres de grandeur. Le code source est disponible sur GitHub.