Este documento propone un método para aplicar marcas de agua a los puntos de referencia para abordar el problema de la contaminación del punto de referencia, que plantea una grave amenaza a la fiabilidad de la evaluación del modelo de lenguaje a gran escala (LLM). La marca de agua se realiza reconstruyendo la pregunta original en un LLM con marca de agua sin comprometer la usabilidad del punto de referencia. En el proceso de evaluación, se utiliza una prueba estadística con soporte teórico para detectar la "radiactividad", que es el rastro dejado por la marca de agua de texto durante el entrenamiento del modelo. Un modelo de 1000 millones de parámetros con 10 000 millones de tokens se pre-entrena desde cero, y la eficacia de la detección de contaminación se verifica en ARC-Easy, ARC-Challenge y MMLU. Como resultado, la usabilidad del punto de referencia es similar después de la marca de agua, y la detección de contaminación es exitosa cuando la contaminación es suficiente para mejorar el rendimiento (p. ej., mejora del +5 % en ARC-Easy, valor p = 10⁻³).