AbGen es el primer punto de referencia diseñado para evaluar la capacidad de diseñar estudios de ablación para la investigación científica. Consta de 1500 ejemplos anotados por expertos, extraídos de 807 artículos de PLN, y encarga a los LLM la generación de diseños detallados de estudios de ablación para módulos o procesos específicos en un contexto de investigación determinado. Los resultados de la evaluación de LLM líderes, como DeepSeek-R1-0528 y o4-mini, muestran diferencias significativas de rendimiento entre estos modelos y los expertos en cuanto a la importancia, la fidelidad y la solidez del diseño de estudios de ablación. Además, los métodos de evaluación automatizada actuales presentan diferencias significativas en comparación con las evaluaciones humanas, lo que sugiere que no son fiables para esta tarea. Para investigar esto en mayor profundidad, desarrollamos AbGen-Eval, un punto de referencia de metaevaluación diseñado para evaluar la fiabilidad de los sistemas de evaluación automatizada comunes utilizados para medir el rendimiento de los LLM en esta tarea. AbGen-Eval examina diversos sistemas LLM como jueces, proporcionando información para el desarrollo de sistemas de evaluación basados en LLM más eficaces y fiables para tareas científicas complejas.