Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

El ojo del juicio: análisis de la evaluación de los LLM en ruso con POLLUX

Created by
  • Haebom

Autor

Nikita Martynov, Anastasia Mordasheva, Dmitriy Gorbetskiy, Danil Astafurov, Ulyana Isaeva, Elina Basyrova, Sergey Skachkov, Victoria Berestova, Nikolay Ivanov, Valeriia Zanina, Alena Fenogenova

Describir

POLLUX es un completo benchmark de código abierto diseñado para evaluar la capacidad generativa de los modelos lingüísticos a gran escala (LLM) para el idioma ruso. Nuestra principal contribución reside en una novedosa metodología de evaluación que mejora la interpretabilidad de las evaluaciones LLM. Para cada tipo de tarea, definimos un conjunto detallado de criterios y desarrollamos un protocolo de puntuación en el que el modelo evalúa las respuestas y justifica las calificaciones. Esto permite evaluaciones transparentes y basadas en criterios que van más allá de las comparaciones humanas tradicionales, que requieren muchos recursos y requieren un análisis paralelo. POLLUX incluye una taxonomía detallada de 35 tipos de tareas que abarcan diversos dominios generativos, como la generación de código, la escritura creativa y los casos prácticos de asistente, y contiene un total de 2100 indicaciones elaboradas profesionalmente. Cada tarea se clasifica por dificultad (fácil/media/difícil) y el conjunto de datos fue creado desde cero por expertos. También publicamos un conjunto de evaluadores LLM-as-a-Judge (7B y 32B) capacitados para una evaluación matizada del resultado de la generación. Este enfoque proporciona herramientas de evaluación y anotación escalables e interpretables para el desarrollo de modelos, reemplazando eficazmente el juicio humano costoso e impreciso.

Takeaways, Limitations

Takeaways:
Proporcionar un punto de referencia integral y de código abierto para evaluar las capacidades generativas de los LLM rusos.
Presentamos una nueva metodología de evaluación que aumenta la interpretabilidad (utilizando LLM como juez).
Construir un sistema de evaluación que sea más eficiente y escalable que los métodos de evaluación humana existentes.
Proporciona un amplio conjunto de datos que cubre una variedad de tipos de tareas y dificultades.
Limitations:
Actualmente limitado a las pruebas de referencia en ruso. Se desconoce la compatibilidad con otros idiomas.
Se necesita una mayor validación del desempeño y la confiabilidad del LLM como juez.
Es necesario debatir la objetividad y equidad de los criterios de evaluación.
Se necesitan más investigaciones para determinar si 2100 indicaciones son suficientes para evaluaciones LLM a gran escala.
👍