Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

$C^3$-Bench: El agente multitarea basado en LLM de Things Real Disturbing

Created by
  • Haebom

Autor

Peijie Yu, Yifan Yang, Jinjian Li, Zelong Zhang, Haorui Wang, Xiao Feng, Feng Zhang

Describir

Este artículo se basa en la idea de que los agentes basados ​​en modelos de lenguaje a gran escala han revolucionado la forma en que interactuamos con el mundo físico al modificar el entorno mediante herramientas. A diferencia de las tareas tradicionales de procesamiento del lenguaje natural, estos agentes deben considerar factores más complejos, como las relaciones entre herramientas, la retroalimentación del entorno y las decisiones previas para tomar decisiones. Los estudios existentes evalúan principalmente a los agentes mediante conversaciones de múltiples rondas, pero pasan por alto el impacto de estos importantes factores en su comportamiento. Para cerrar esta brecha, este artículo presenta $C^3$-Bench, un benchmark de código abierto de alta calidad. $C^3$-Bench integra el concepto de ataque y aplica análisis univariado para identificar con precisión los factores clave que afectan la robustez del agente. Específicamente, diseñamos tres tareas: explorar relaciones complejas entre herramientas, procesar información oculta importante y gestionar rutas de decisión dinámicas. Para complementar estas tareas, introducimos métricas de grano fino, algoritmos innovadores de recopilación de datos y métodos de evaluación reproducibles. Experimentos exhaustivos con 49 agentes líderes (incluyendo modelos generales de pensamiento rápido, de pensamiento lento y específicos de dominio) han demostrado que los agentes presentan deficiencias significativas en la gestión de la dependencia de herramientas, la dependencia prolongada de la información contextual y el cambio frecuente de tipo de política. En esencia, $C^3$-Bench busca exponer las vulnerabilidades de los modelos mediante estas tareas y facilitar la investigación sobre la interpretabilidad del rendimiento de los agentes. El benchmark está disponible públicamente en https://github.com/TencentHunyuan/C3-Benchmark .

Takeaways, Limitations

Takeaways:
Presentamos un nuevo punto de referencia ($C^3$-Bench) para evaluar la robustez y la interpretabilidad de agentes basados ​​en modelos de lenguaje a gran escala.
Sugerimos futuras direcciones de investigación al revelar vulnerabilidades de los agentes como la dependencia de herramientas, el procesamiento de información de contexto a largo plazo y la capacidad de cambio de políticas.
Se publica como código abierto, lo que permite que otros investigadores lo reproduzcan y realicen investigaciones adicionales.
Las métricas granulares y los algoritmos innovadores de recopilación de datos permiten una evaluación más sofisticada de los agentes.
Limitations:
Los tipos y el alcance de las tareas actualmente incluidas en el punto de referencia pueden ser limitados.
Este análisis se basa en el análisis univariado, por lo que se requiere un análisis más profundo mediante análisis multivariado.
El tipo de agente que se evalúa puede estar sesgado hacia un campo específico.
Existe la posibilidad de que no refleje perfectamente las diversas situaciones y variables que pueden ocurrir en aplicaciones del mundo real.
👍