POLLUX est un benchmark open source complet conçu pour évaluer la puissance génératrice des modèles linguistiques à grande échelle (MLH) pour la langue russe. Notre principale contribution est une méthodologie d'évaluation innovante qui améliore l'interprétabilité des évaluations LLM. Pour chaque type de tâche, nous définissons un ensemble détaillé de critères et développons un protocole de notation dans lequel le modèle évalue les réponses et justifie les notes attribuées. Cela permet des évaluations transparentes, basées sur des critères, qui vont au-delà des comparaisons humaines traditionnelles, gourmandes en ressources. POLLUX inclut une taxonomie détaillée de 35 types de tâches couvrant divers domaines génératifs, dont la génération de code, l'écriture créative et les cas d'utilisation d'assistants pratiques, et contient un total de 2 100 sujets rédigés de manière professionnelle et personnalisée. Chaque tâche est classée par difficulté (facile/moyen/difficile), et l'ensemble de données a été entièrement créé par des experts. Nous mettons également à disposition un ensemble d'évaluateurs LLM-as-a-Judge (7B et 32B) formés pour une évaluation nuancée des résultats de la génération. Cette approche fournit des outils d’évaluation et d’annotation évolutifs et interprétables pour le développement de modèles, remplaçant efficacement le jugement humain coûteux et inexact.