Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

L'œil du jugement : analyse de l'évaluation des LLM russophones avec POLLUX

Created by
  • Haebom

Auteur

Nikita Martynov, Anastasia Mordasheva, Dmitriy Gorbetskiy, Danil Astafurov, Ulyana Isaeva, Elina Basyrova, Sergey Skachkov, Victoria Berestova, Nikolay Ivanov, Valeriia Zanina, Alena Fenogenova

Contour

POLLUX est un benchmark open source complet conçu pour évaluer la puissance génératrice des modèles linguistiques à grande échelle (MLH) pour la langue russe. Notre principale contribution est une méthodologie d'évaluation innovante qui améliore l'interprétabilité des évaluations LLM. Pour chaque type de tâche, nous définissons un ensemble détaillé de critères et développons un protocole de notation dans lequel le modèle évalue les réponses et justifie les notes attribuées. Cela permet des évaluations transparentes, basées sur des critères, qui vont au-delà des comparaisons humaines traditionnelles, gourmandes en ressources. POLLUX inclut une taxonomie détaillée de 35 types de tâches couvrant divers domaines génératifs, dont la génération de code, l'écriture créative et les cas d'utilisation d'assistants pratiques, et contient un total de 2 100 sujets rédigés de manière professionnelle et personnalisée. Chaque tâche est classée par difficulté (facile/moyen/difficile), et l'ensemble de données a été entièrement créé par des experts. Nous mettons également à disposition un ensemble d'évaluateurs LLM-as-a-Judge (7B et 32B) formés pour une évaluation nuancée des résultats de la génération. Cette approche fournit des outils d’évaluation et d’annotation évolutifs et interprétables pour le développement de modèles, remplaçant efficacement le jugement humain coûteux et inexact.

Takeaways, Limitations

Takeaways:
Fournir une référence complète et open source pour évaluer les capacités génératrices des LLM russes.
Présentation d’une nouvelle méthodologie d’évaluation qui augmente l’interprétabilité (en utilisant LLM-as-a-Judge).
Construire un système d’évaluation plus efficace et évolutif que les méthodes d’évaluation humaine existantes.
Fournit un ensemble de données riche couvrant une variété de types de tâches et de difficultés.
Limitations:
Actuellement limité aux tests de performance en russe. La prise en charge des autres langues est inconnue.
Une validation supplémentaire des performances et de la fiabilité du LLM-as-a-Judge est nécessaire.
Il est nécessaire de discuter de l’objectivité et de l’équité des critères d’évaluation.
Des recherches supplémentaires sont nécessaires pour déterminer si 2 100 questions sont suffisantes pour des évaluations LLM à grande échelle.
👍