Cet article présente un benchmark complet pour évaluer l'efficacité et les limites des agents de science des données basés sur des modèles de langage à grande échelle (MLH). Nous concevons un benchmark qui reflète les interactions réelles des utilisateurs, en nous appuyant sur l'observation d'applications commerciales. Nous évaluons trois LMH : Claude-4.0-Sonnet, Gemini-2.5-Flash et OpenAI-o4-Mini, en utilisant une approche multi-étapes zéro-coup et SmolAgent. Nous évaluons les performances dans huit catégories de tâches de science des données, analysons la sensibilité du modèle aux problèmes d'invite courants, tels que les fuites de données et les instructions ambiguës, et étudions l'impact des paramètres de température. Par conséquent, nous mettons en lumière les différences de performances entre les modèles et les méthodologies, mettons en évidence les facteurs critiques affectant les déploiements réels et fournissons un ensemble de données de référence et un cadre d'évaluation qui jettent les bases de futures recherches sur des agents de science des données plus robustes et plus efficaces.