Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

DSBC: Nhiệm vụ Khoa học dữ liệu so sánh với kỹ thuật bối cảnh

Created by
  • Haebom

Tác giả

Ram Mohan Rao Kadiyala, Siddhant Gupta, Jebish Purbey, Giulio Martini, Ali Shafique, Suman Debnath, Hamza Farooq

Phác thảo

Bài báo này trình bày một chuẩn mực toàn diện để đánh giá hiệu quả và hạn chế của các tác nhân khoa học dữ liệu dựa trên các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi thiết kế một chuẩn mực phản ánh tương tác người dùng trong thế giới thực, dựa trên quan sát từ các ứng dụng thương mại. Chúng tôi đánh giá ba LLM—Claude-4.0-Sonnet, Gemini-2.5-Flash và OpenAI-o4-Mini—bằng cách sử dụng phương pháp zero-shot, nhiều bước và SmolAgent. Chúng tôi đánh giá hiệu suất trên tám hạng mục tác vụ khoa học dữ liệu, phân tích độ nhạy của mô hình đối với các vấn đề nhắc nhở phổ biến, chẳng hạn như rò rỉ dữ liệu và các hướng dẫn mơ hồ, và nghiên cứu tác động của các tham số nhiệt độ. Do đó, chúng tôi làm sáng tỏ sự khác biệt về hiệu suất giữa các mô hình và phương pháp luận, làm nổi bật các yếu tố quan trọng ảnh hưởng đến việc triển khai trong thế giới thực và cung cấp một tập dữ liệu chuẩn mực và khuôn khổ đánh giá, đặt nền tảng cho các nghiên cứu trong tương lai về các tác nhân khoa học dữ liệu mạnh mẽ và hiệu quả hơn.

Takeaways, Limitations

Takeaways:
Cung cấp chuẩn mực toàn diện để đánh giá các tác nhân khoa học dữ liệu phản ánh tương tác của người dùng trong thế giới thực.
Chúng tôi trình bày các yếu tố ảnh hưởng đến việc triển khai trong thế giới thực thông qua phân tích hiệu suất so sánh của nhiều LLM và phương pháp khác nhau.
Nhấn mạnh tầm quan trọng của kỹ thuật kịp thời và các thông số nhiệt độ.
ĐặT nền tảng cho nghiên cứu về tác nhân khoa học dữ liệu trong tương lai.
Limitations:
Các loại và phiên bản LLM được sử dụng trong đánh giá có thể bị hạn chế.
Các danh mục nhiệm vụ khoa học dữ liệu có trong tiêu chuẩn đánh giá có thể không đủ đa dạng.
Có những hạn chế về khả năng khái quát hóa do thiết kế chuẩn mực dựa trên quan sát về việc sử dụng ứng dụng thương mại.
👍