Este artículo aborda el problema del solapamiento entre los datos de entrenamiento y prueba para mejorar la fiabilidad de la evaluación de modelos lingüísticos. Se señala la dificultad de medir dicho solapamiento, ya que la mayoría de los modelos lingüísticos actualmente solo divulgan los resultados de la evaluación, sin revelar los datos de entrenamiento. El equipo de investigación realizó una encuesta a 30 desarrolladores de modelos para analizar el estado de la divulgación de información relacionada con el solapamiento entre los datos de entrenamiento y prueba, y descubrió que solo 9 desarrolladores divulgan información relacionada. Además, se argumenta que los desarrolladores de modelos lingüísticos deberían divulgar las estadísticas de solapamiento entre los datos de entrenamiento y prueba al informar los resultados de la evaluación en conjuntos de pruebas públicos.