En este artículo, proponemos un paradigma de evaluación que transforma los conjuntos de datos de control de calidad existentes en debates estructurados para abordar los problemas de los parámetros de control de calidad existentes, como la contaminación de datos, la memorización y el aumento de los costes de generación. Un modelo defiende la respuesta correcta, otro construye y defiende una alternativa, y un modelo de adjudicador, que desconoce la respuesta correcta, toma la decisión. Se caracteriza por aumentar la dificultad mediante múltiples rondas de argumentación, limitar la memorización y reducir los costes de gestión mediante la reutilización de elementos de control de calidad existentes. Las principales contribuciones son un proceso que transforma las tareas de control de calidad en evaluaciones basadas en debates y un punto de referencia público que utiliza un subconjunto de preguntas de MMLU-Pro. Los resultados experimentales verifican la robustez del método y su eficacia contra la contaminación de datos, y muestran que el modelo Llama 3.1, optimizado con preguntas de prueba, presenta un rendimiento deficiente en los debates. Además, demostramos que incluso los modelos de adjudicador débiles pueden distinguir a los debatientes más experimentados, lo que sugiere que es posible evaluar sistemas mejorados de forma rentable. En conclusión, el marco de este artículo enfatiza que “el preentrenamiento de un conjunto de pruebas por sí solo no es suficiente” y presenta una forma sostenible de medir la verdadera capacidad de inferencia de los modelos de lenguaje avanzados.