Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

El preentrenamiento en el conjunto de pruebas ya no es todo lo que necesita: un enfoque basado en el debate para los puntos de referencia de control de calidad

Created by
  • Haebom

Autor

Linbo Cao, Jinman Zhao

Describir

En este artículo, proponemos un paradigma de evaluación que transforma los conjuntos de datos de control de calidad existentes en debates estructurados para abordar los problemas de los parámetros de control de calidad existentes, como la contaminación de datos, la memorización y el aumento de los costes de generación. Un modelo defiende la respuesta correcta, otro construye y defiende una alternativa, y un modelo de adjudicador, que desconoce la respuesta correcta, toma la decisión. Se caracteriza por aumentar la dificultad mediante múltiples rondas de argumentación, limitar la memorización y reducir los costes de gestión mediante la reutilización de elementos de control de calidad existentes. Las principales contribuciones son un proceso que transforma las tareas de control de calidad en evaluaciones basadas en debates y un punto de referencia público que utiliza un subconjunto de preguntas de MMLU-Pro. Los resultados experimentales verifican la robustez del método y su eficacia contra la contaminación de datos, y muestran que el modelo Llama 3.1, optimizado con preguntas de prueba, presenta un rendimiento deficiente en los debates. Además, demostramos que incluso los modelos de adjudicador débiles pueden distinguir a los debatientes más experimentados, lo que sugiere que es posible evaluar sistemas mejorados de forma rentable. En conclusión, el marco de este artículo enfatiza que “el preentrenamiento de un conjunto de pruebas por sí solo no es suficiente” y presenta una forma sostenible de medir la verdadera capacidad de inferencia de los modelos de lenguaje avanzados.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo paradigma de evaluación que resuelve eficazmente los Limitations (contaminación de datos, memorización, alto costo de creación de conjuntos de datos) de las evaluaciones de control de calidad existentes.
La evaluación basada en discusión permite medir la verdadera capacidad de inferencia de un modelo.
Es posible realizar una evaluación rentable reutilizando conjuntos de datos de control de calidad existentes.
Descubrimos que los modelos más fuertes tienen mejor desempeño en las discusiones.
Incluso los modelos de evaluación relativamente débiles pueden identificar a los polemistas más fuertes.
Limitations:
El punto de referencia propuesto es aplicable únicamente a un subconjunto de MMLU-Pro, por lo que se requieren más estudios sobre su generalización.
Se necesita más investigación para garantizar la objetividad de la estructura de la discusión y los criterios de revisión.
Los resultados de la evaluación pueden verse afectados por el desempeño del modelo de evaluación.
Necesidad de verificar la generalización a varios tipos de problemas de control de calidad.
👍