Este documento plantea el riesgo de que los puntos de referencia de modelos de lenguaje a gran escala (LLM) disponibles públicamente podrían usarse involuntariamente (o intencionalmente) en futuros entrenamientos o selecciones de LLM, lo que podría conducir a la contaminación del modelo. Las soluciones existentes, como el secreto de los puntos de referencia y el envío de modelos/predicciones por parte de los participantes, se basan en la confianza en una institución específica y dejan abierta la posibilidad de sobreajuste mediante consultas repetidas. Este documento propone un método para divulgar públicamente los puntos de referencia, lo que permite la evaluación pública de los LLM sin revelar las respuestas completas. La idea central es inyectar aleatoriedad en las respuestas proporcionando múltiples respuestas lógicamente correctas e incluyendo solo una de ellas como la respuesta correcta. Este enfoque reduce la precisión bayesiana del punto de referencia, protegiendo la respuesta correcta y proporcionando una prueba para detectar la contaminación de los datos. Dado que incluso los modelos perfectos no pueden superar la precisión bayesiana, superarla es un fuerte indicador de contaminación de datos. Los resultados experimentales demuestran que este método puede detectar con precisión la contaminación de datos en una variedad de puntos de referencia, modelos y métodos de aprendizaje.