[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AbGen : Évaluation de grands modèles linguistiques dans la conception et l'évaluation d'études d'ablation pour la recherche scientifique

Created by
  • Haebom

Auteur

Yilun Zhao, Weiyuan Chen, Zhijian Xu, Manasi Patwardhan, Yixin Liu, Chengye Wang, Lovekesh Vig, Arman Cohan

Contour

AbGen est le premier benchmark conçu pour évaluer la capacité à concevoir des études d'ablation pour la recherche scientifique. Il se compose de 1 500 exemples annotés par des experts, extraits de 807 articles de TALN, et demande aux LLM de générer des plans d'études d'ablation détaillés pour des modules ou processus spécifiques dans un contexte de recherche donné. Les résultats d'évaluation de LLM de premier plan, tels que DeepSeek-R1-0528 et o4-mini, montrent des différences de performance significatives entre ces modèles et les experts en termes d'importance, de fidélité et de solidité du plan d'études d'ablation. De plus, les méthodes d'évaluation automatisées actuelles présentent des différences significatives par rapport aux évaluations humaines, suggérant qu'elles ne sont pas fiables pour cette tâche. Pour approfondir ce sujet, nous avons développé AbGen-Eval, un benchmark de méta-évaluation conçu pour évaluer la fiabilité des systèmes d'évaluation automatisés couramment utilisés pour mesurer la performance des LLM dans cette tâche. AbGen-Eval examine divers systèmes LLM-as-Judge, offrant des perspectives pour le développement de systèmes d'évaluation basés sur les LLM plus efficaces et plus fiables pour les tâches scientifiques complexes.

Takeaways, Limitations_

Takeaways: Le benchmark AbGen fournit une nouvelle norme pour évaluer la capacité de conception des études d'ablation des LLM. Il met clairement en évidence les limites de performance des LLM et suggère des pistes de recherche futures. Il soulève la question de la fiabilité des systèmes d'évaluation automatique et souligne la nécessité de développer de meilleurs systèmes d'évaluation. AbGen-Eval contribue à la recherche visant à améliorer la fiabilité des systèmes d'évaluation basés sur les LLM.
Limitations : Démontre le manque de capacités de conception d'études d'ablation des LLM actuels. Il souligne la difficulté d'évaluer les performances des LLM en raison du manque de fiabilité des systèmes d'évaluation automatisés. Des recherches supplémentaires pourraient être nécessaires sur la taille et la diversité des données de référence d'AbGen. Des recherches supplémentaires sont nécessaires pour déterminer si les connaissances fournies par AbGen-Eval peuvent être généralisées à toutes les tâches scientifiques complexes.
👍