Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

UFEval : évaluation unifiée à granularité fine avec généralisation des tâches et des aspects

Created by
  • Haebom

Auteur

Shibo Hong, Jiahao Ying, Haiyuan Liang, Mengdi Zhang, Jun Kuang, Jiazheng Zhang, Yixin Cao

Contour

Pour relever les défis de l'évaluation ouverte des résultats de modèles multimodaux à grande échelle, cet article propose UFEval, un évaluateur à granularité fine intégrant de multiples tâches et aspects. UFEval repose sur une taxonomie hiérarchique des aspects englobant 112 aspects à granularité fine répartis sur quatre tâches : génération de langage naturel, compréhension d'images, génération d'images et génération de textes croisés et d'images. Nous avons entraîné UFEval sur FRABench, un jeu de données d'évaluation à granularité fine composé de 64 000 échantillons de comparaison par paires et de 325 000 étiquettes d'évaluation. Les résultats expérimentaux démontrent que l'apprentissage sur des aspects spécifiques permet la généralisation à des aspects non observés, et que l'apprentissage conjoint sur plusieurs tâches et aspects produit des résultats mutuellement bénéfiques.

Takeaways, Limitations

Takeaways:
Nous présentons un critère d’évaluation de modèle multimodal intégré et à granularité fine couvrant une variété de tâches et de modalités.
Suggérer la possibilité de généraliser à des aspects invisibles en apprenant des aspects spécifiques.
Identifier les effets synergétiques de l’apprentissage collaboratif sur diverses tâches et aspects.
Un ensemble de données d'évaluation multimodales à grande échelle au niveau des aspects fourni par FRABench.
Limitations:
Un examen plus approfondi de la fiabilité et du biais des annotations humaines et GPT-4o sur l’ensemble de données FRABench est nécessaire.
Il existe un manque d’analyse comparative des performances de l’UFEval proposé avec d’autres méthodologies d’évaluation.
Des discussions plus approfondies sont nécessaires concernant l’exhaustivité et la pertinence du système de classification à 112 éléments.
Des expériences et des analyses plus approfondies sont nécessaires pour déterminer la capacité de généralisation de l’UFEval.
👍