Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AdEval : évaluation dynamique basée sur l'alignement pour atténuer la contamination des données dans les grands modèles linguistiques

Created by
  • Haebom

Auteur

Yang Fan

Contour

Cet article propose AdEval, une méthode d'évaluation dynamique des données, pour traiter la contamination des données dans les évaluations de modèles linguistiques à grande échelle (MLH). AdEval réduit le risque de contamination des données en extrayant les points de connaissance et les idées clés des ensembles de données statiques et en les alignant dynamiquement avec le contenu principal des référentiels statiques. Elle obtient des informations contextuelles grâce à des recherches en ligne pour générer des explications détaillées des points de connaissance et élabore des questions sur six dimensions (mémorisation, compréhension, application, analyse, évaluation et création) basées sur la hiérarchie cognitive de Bloom, permettant ainsi des évaluations cognitives multi-niveaux. Elle contrôle la complexité des ensembles de données générés dynamiquement grâce à une restructuration itérative des questions. Les résultats expérimentaux sur plusieurs ensembles de données démontrent qu'AdEval atténue efficacement l'impact de la contamination des données, remédie au manque de contrôle de la complexité et aux problèmes d'évaluation unidimensionnelle, et améliore l'équité, la fiabilité et la diversité des évaluations LLM.

Takeaways, Limitations

Takeaways:
Une nouvelle approche pour lutter contre la contamination des données dans les évaluations LLM
Fournir une méthode d'évaluation LLM dynamique et multidimensionnelle
Améliorer l'équité, la fiabilité et la diversité des évaluations
ÉValuation cognitive à plusieurs niveaux possible grâce à la hiérarchie cognitive de Bloom
Limitations:
Les performances d'AdEval peuvent dépendre de la qualité des résultats de recherche en ligne.
Une discussion est nécessaire sur la subjectivité du processus de génération de questions et de contrôle de la complexité.
D’autres expériences approfondies sur différents types de LLM et d’ensembles de données sont nécessaires.
Une analyse du coût et de l’efficacité du calcul d’AdEval est nécessaire.
👍