Dans cet article, nous proposons une méthode d'évaluation de la sécurité sans entraînement qui utilise les informations internes des LLM pré-entraînés au lieu des modèles de garde traditionnels et coûteux pour résoudre les problèmes de sécurité et d'alignement des modèles de langage à grande échelle (LLM). Nous démontrons que le LLM peut reconnaître les entrées nuisibles par simple incitation et distinguer les incitations sûres et nuisibles dans l'espace latent du modèle. Sur cette base, nous proposons le Latent Prototype Moderator (LPM), un module complémentaire léger et personnalisé qui utilise la distance de Mahalanobis dans l'espace latent pour évaluer la sécurité des entrées. Le LPM se généralise à différentes familles et tailles de modèles et offre des performances équivalentes, voire supérieures, aux modèles de garde de pointe sur plusieurs benchmarks de sécurité.