Cet article soulève le risque de contamination des LLM lors de la publication en ligne de benchmarks de modèles de langage à grande échelle (LLM) et propose une nouvelle méthode pour y remédier. Les approches de benchmarks fermés existantes posent des problèmes de confiance et de surapprentissage en raison de requêtes répétées. Cet article propose une méthode permettant d'évaluer publiquement les LLM sans divulguer intégralement les réponses correctes aux questions. L'idée principale est de préparer plusieurs réponses logiquement correctes et d'en inclure une seule comme réponse correcte dans le benchmark. Cette approche réduit la précision bayésienne du benchmark, prévient les fuites de vérité terrain et fournit un test de détection de la contamination des données. Les résultats expérimentaux démontrent que la méthode proposée permet de détecter avec précision la contamination des données sur une variété de benchmarks, de modèles et de méthodes d'apprentissage.