Bài báo này trình bày một chuẩn mực toàn diện để đánh giá hiệu quả và hạn chế của các tác nhân khoa học dữ liệu dựa trên các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi thiết kế một chuẩn mực phản ánh tương tác người dùng trong thế giới thực, dựa trên quan sát từ các ứng dụng thương mại. Chúng tôi đánh giá ba LLM—Claude-4.0-Sonnet, Gemini-2.5-Flash và OpenAI-o4-Mini—bằng cách sử dụng phương pháp zero-shot, nhiều bước và SmolAgent. Chúng tôi đánh giá hiệu suất trên tám hạng mục tác vụ khoa học dữ liệu, phân tích độ nhạy của mô hình đối với các vấn đề nhắc nhở phổ biến, chẳng hạn như rò rỉ dữ liệu và các hướng dẫn mơ hồ, và nghiên cứu tác động của các tham số nhiệt độ. Do đó, chúng tôi làm sáng tỏ sự khác biệt về hiệu suất giữa các mô hình và phương pháp luận, làm nổi bật các yếu tố quan trọng ảnh hưởng đến việc triển khai trong thế giới thực và cung cấp một tập dữ liệu chuẩn mực và khuôn khổ đánh giá, đặt nền tảng cho các nghiên cứu trong tương lai về các tác nhân khoa học dữ liệu mạnh mẽ và hiệu quả hơn.