Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La correspondencia de respuestas supera a la opción de opción múltiple en la evaluación del modelo lingüístico

Created by
  • Haebom

Autor

Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping

Describir

Este artículo señala las limitaciones de la evaluación de opción múltiple y propone el "emparejamiento de respuestas", un método de evaluación generativo. La evaluación de opción múltiple es objetiva y fácil de automatizar, pero presenta la desventaja de permitir inferir la respuesta correcta sin consultar la pregunta. Por otro lado, el emparejamiento de respuestas es un método en el que el modelo genera respuestas en formato libre y determina si coinciden con las respuestas de referencia utilizando el modelo de lenguaje más reciente. Los resultados de la medición de la concordancia entre la evaluación humana y cada método de evaluación, utilizando los conjuntos de datos MMLU-Pro y GPQA-Diamond, muestran que el emparejamiento de respuestas presenta una alta precisión, cercana a la concordancia entre humanos, incluso utilizando un modelo pequeño. Por otro lado, la evaluación de opción múltiple y la evaluación con LLM sin respuestas de referencia mostraron una baja concordancia con la evaluación humana. Mejorar la evaluación mediante el emparejamiento de respuestas no es un problema conceptual simple, y las clasificaciones de los distintos modelos difieren significativamente al evaluar respuestas de formato libre mediante el emparejamiento de respuestas. Por lo tanto, este artículo analiza una manera de transformar el ecosistema de evaluación de la evaluación de opción múltiple al emparejamiento de respuestas.

Takeaways, Limitations

Takeaways:
Exponer claramente las limitaciones de la evaluación de opción múltiple y demostrar experimentalmente la superioridad del método de correspondencia de respuestas, un método de evaluación generativa.
La coincidencia de respuestas permite una evaluación más precisa y confiable del modelo de lenguaje.
Resuelve problemas con los métodos de evaluación de opción múltiple existentes y presenta un cambio de paradigma en la evaluación de modelos lingüísticos.
Demostramos que la precisión de la correspondencia de respuestas es alta incluso cuando se utilizan modelos de lenguaje a pequeña escala.
Limitations:
El costo computacional de la correspondencia de respuestas puede ser mayor que el de la evaluación de opción múltiple.
La precisión de los resultados de la evaluación puede verse afectada por la calidad y cantidad de las respuestas de referencia.
Los resultados de la evaluación pueden variar dependiendo del desempeño del modelo de lenguaje utilizado para la correspondencia de respuestas.
Se necesitan más investigaciones para determinar si el método de correspondencia de respuestas es aplicable a todo tipo de preguntas.
👍