Este artículo señala las limitaciones de la evaluación de opción múltiple y propone el "emparejamiento de respuestas", un método de evaluación generativo. La evaluación de opción múltiple es objetiva y fácil de automatizar, pero presenta la desventaja de permitir inferir la respuesta correcta sin consultar la pregunta. Por otro lado, el emparejamiento de respuestas es un método en el que el modelo genera respuestas en formato libre y determina si coinciden con las respuestas de referencia utilizando el modelo de lenguaje más reciente. Los resultados de la medición de la concordancia entre la evaluación humana y cada método de evaluación, utilizando los conjuntos de datos MMLU-Pro y GPQA-Diamond, muestran que el emparejamiento de respuestas presenta una alta precisión, cercana a la concordancia entre humanos, incluso utilizando un modelo pequeño. Por otro lado, la evaluación de opción múltiple y la evaluación con LLM sin respuestas de referencia mostraron una baja concordancia con la evaluación humana. Mejorar la evaluación mediante el emparejamiento de respuestas no es un problema conceptual simple, y las clasificaciones de los distintos modelos difieren significativamente al evaluar respuestas de formato libre mediante el emparejamiento de respuestas. Por lo tanto, este artículo analiza una manera de transformar el ecosistema de evaluación de la evaluación de opción múltiple al emparejamiento de respuestas.