Este artículo plantea el riesgo de contaminación de LLM al publicar benchmarks de modelos de lenguaje (LLM) a gran escala en línea y propone un método novedoso para abordarlo. Los enfoques actuales de benchmarks cerrados plantean problemas de confianza y sobreajuste debido a consultas repetidas. Este artículo propone un método para evaluar públicamente los LLM sin revelar completamente las respuestas correctas a las preguntas. La idea central es preparar múltiples respuestas lógicamente correctas e incluir solo una de ellas como la respuesta correcta en el benchmark. Este enfoque reduce la precisión bayesiana del benchmark, previene la fuga de la verdad fundamental y proporciona una prueba para detectar la contaminación de datos. Los resultados experimentales demuestran que el método propuesto puede detectar con precisión la contaminación de datos en una variedad de benchmarks, modelos y métodos de entrenamiento.