Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DSBC: Tarea de ciencia de datos: Benchmarking con ingeniería de contexto

Created by
  • Haebom

Autor

Ram Mohan Rao Kadiyala, Siddhant Gupta, Jebish Purbey, Giulio Martini, Ali Shafique, Suman Debnath, Hamza Farooq

Describir

Este artículo presenta un benchmark integral para evaluar la efectividad y las limitaciones de los agentes de ciencia de datos basados en modelos de lenguaje a gran escala (LLM). Diseñamos un benchmark que refleja las interacciones de usuarios reales, basándonos en observaciones de aplicaciones comerciales. Evaluamos tres LLM (Claude-4.0-Sonnet, Gemini-2.5-Flash y OpenAI-o4-Mini) utilizando un enfoque multipaso de cero disparos y SmolAgent. Evaluamos el rendimiento en ocho categorías de tareas de ciencia de datos, analizamos la sensibilidad del modelo a problemas comunes de activación, como fugas de datos e instrucciones ambiguas, e investigamos el impacto de los parámetros de temperatura. En consecuencia, esclarecemos las diferencias de rendimiento entre modelos y metodologías, destacamos los factores críticos que afectan las implementaciones reales y proporcionamos un conjunto de datos de referencia y un marco de evaluación que sientan las bases para futuras investigaciones sobre agentes de ciencia de datos más robustos y efectivos.

Takeaways, Limitations

Takeaways:
Proporciona un punto de referencia integral para evaluar agentes de ciencia de datos que reflejan interacciones de usuarios en el mundo real.
Un análisis comparativo del desempeño de distintos LLM y enfoques presenta factores que influyen en las implementaciones en el mundo real.
Enfatizar la importancia de la ingeniería rápida y los parámetros de temperatura.
Sentando las bases para futuras investigaciones sobre agentes de ciencia de datos.
Limitations:
Los tipos y versiones de LLM utilizados en la evaluación pueden ser limitados.
Es posible que las categorías de tareas de ciencia de datos incluidas en el punto de referencia no sean lo suficientemente diversas.
Existen limitaciones a la generalización debido a que el diseño de referencia se basa en observaciones del uso de aplicaciones comerciales.
👍