Este artículo presenta un benchmark integral para evaluar la efectividad y las limitaciones de los agentes de ciencia de datos basados en modelos de lenguaje a gran escala (LLM). Diseñamos un benchmark que refleja las interacciones de usuarios reales, basándonos en observaciones de aplicaciones comerciales. Evaluamos tres LLM (Claude-4.0-Sonnet, Gemini-2.5-Flash y OpenAI-o4-Mini) utilizando un enfoque multipaso de cero disparos y SmolAgent. Evaluamos el rendimiento en ocho categorías de tareas de ciencia de datos, analizamos la sensibilidad del modelo a problemas comunes de activación, como fugas de datos e instrucciones ambiguas, e investigamos el impacto de los parámetros de temperatura. En consecuencia, esclarecemos las diferencias de rendimiento entre modelos y metodologías, destacamos los factores críticos que afectan las implementaciones reales y proporcionamos un conjunto de datos de referencia y un marco de evaluación que sientan las bases para futuras investigaciones sobre agentes de ciencia de datos más robustos y efectivos.