Cet article soulève le risque que des benchmarks de modèles linguistiques à grande échelle (LLM) accessibles au public soient utilisés, intentionnellement ou non, lors de futures formations ou sélections de LLM, ce qui pourrait entraîner une contamination des modèles. Les solutions existantes, telles que la confidentialité des benchmarks et la soumission des modèles/prédictions des participants, reposent sur la confiance envers une institution spécifique et laissent planer le risque de surapprentissage dû à des requêtes répétées. Cet article propose une méthode de divulgation publique des benchmarks, permettant l'évaluation publique des LLM sans révéler l'intégralité des réponses. L'idée principale est d'introduire un caractère aléatoire dans les réponses en fournissant plusieurs réponses logiquement correctes et en n'en incluant qu'une seule comme réponse correcte. Cette approche réduit la précision bayésienne du benchmark, protégeant ainsi la bonne réponse et fournissant un test de détection de la contamination des données. Étant donné que même les modèles parfaits ne peuvent excéder la précision bayésienne, un dépassement de celle-ci constitue un indicateur fort de contamination des données. Les résultats expérimentaux démontrent que cette méthode permet de détecter avec précision la contamination des données sur une variété de benchmarks, de modèles et de méthodes d'apprentissage.