Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DSBC : Analyse comparative des tâches de science des données avec ingénierie contextuelle

Created by
  • Haebom

Auteur

Ram Mohan Rao Kadiyala, Siddhant Gupta, Jebish Purbey, Giulio Martini, Ali Shafique, Suman Debnath, Hamza Farooq

Contour

Cet article présente un benchmark complet pour évaluer l'efficacité et les limites des agents de science des données basés sur des modèles de langage à grande échelle (MLH). Nous concevons un benchmark qui reflète les interactions réelles des utilisateurs, en nous appuyant sur l'observation d'applications commerciales. Nous évaluons trois LMH : Claude-4.0-Sonnet, Gemini-2.5-Flash et OpenAI-o4-Mini, en utilisant une approche multi-étapes zéro-coup et SmolAgent. Nous évaluons les performances dans huit catégories de tâches de science des données, analysons la sensibilité du modèle aux problèmes d'invite courants, tels que les fuites de données et les instructions ambiguës, et étudions l'impact des paramètres de température. Par conséquent, nous mettons en lumière les différences de performances entre les modèles et les méthodologies, mettons en évidence les facteurs critiques affectant les déploiements réels et fournissons un ensemble de données de référence et un cadre d'évaluation qui jettent les bases de futures recherches sur des agents de science des données plus robustes et plus efficaces.

Takeaways, Limitations

Takeaways:
Fournit une référence complète pour évaluer les agents de science des données qui reflètent les interactions réelles des utilisateurs.
Une analyse comparative des performances de différents LLM et approches présente les facteurs influençant les déploiements dans le monde réel.
Soulignez l’importance des paramètres d’ingénierie et de température rapides.
Jeter les bases de la future recherche sur les agents de science des données.
Limitations:
Les types et versions de LLM utilisés dans l’évaluation peuvent être limités.
Les catégories de tâches de science des données incluses dans l’analyse comparative peuvent ne pas être suffisamment diversifiées.
Des limites à la généralisabilité existent en raison du fait que la conception de référence est basée sur des observations de l’utilisation d’applications commerciales.
👍