AbGen est le premier benchmark conçu pour évaluer la capacité à concevoir des études d'ablation pour la recherche scientifique. Il se compose de 1 500 exemples annotés par des experts, extraits de 807 articles de TALN, et demande aux LLM de générer des plans d'études d'ablation détaillés pour des modules ou processus spécifiques dans un contexte de recherche donné. Les résultats d'évaluation de LLM de premier plan, tels que DeepSeek-R1-0528 et o4-mini, montrent des différences de performance significatives entre ces modèles et les experts en termes d'importance, de fidélité et de solidité du plan d'études d'ablation. De plus, les méthodes d'évaluation automatisées actuelles présentent des différences significatives par rapport aux évaluations humaines, suggérant qu'elles ne sont pas fiables pour cette tâche. Pour approfondir ce sujet, nous avons développé AbGen-Eval, un benchmark de méta-évaluation conçu pour évaluer la fiabilité des systèmes d'évaluation automatisés couramment utilisés pour mesurer la performance des LLM dans cette tâche. AbGen-Eval examine divers systèmes LLM-as-Judge, offrant des perspectives pour le développement de systèmes d'évaluation basés sur les LLM plus efficaces et plus fiables pour les tâches scientifiques complexes.