Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LiveMCP-101: Pruebas de estrés y diagnóstico de agentes habilitados para MCP en consultas desafiantes

Created by
  • Haebom

Autor

Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song

Describir

El benchmark LiveMCP-101 está diseñado para evaluar la capacidad de los agentes de IA para resolver tareas complejas de varios pasos utilizando diversas herramientas del Protocolo de Contexto de Modelo (MCP). Consta de 101 consultas reales y requiere el uso coordinado de múltiples herramientas MCP, como búsqueda web, operaciones con archivos, razonamiento matemático y análisis de datos. A diferencia de los métodos tradicionales de evaluación basados ​​en la salida de API, utiliza planes de ejecución correctos para reflejar mejor la naturaleza dinámica de los entornos reales. Los resultados experimentales muestran que incluso los LLM más avanzados tienen tasas de éxito inferiores al 60 % y presentan diversos modos de fallo, incluyendo ineficiencias en el uso de tokens. Esto pone de manifiesto la dificultad de optimizar las herramientas y sugiere futuras estrategias para la mejora del modelo.

Takeaways, Limitations

Takeaways:
Proporciona criterios rigurosos para evaluar la capacidad de realizar tareas complejas utilizando múltiples herramientas en entornos del mundo real.
Muestra claramente las limitaciones de las capacidades de ajuste de herramientas de los LLM de vanguardia.
Analizamos varios modos de falla e ineficiencias que ocurren durante el uso de herramientas y sugerimos direcciones para mejorar el modelo.
Presenta direcciones de desarrollo importantes para el desarrollo de sistemas de IA autónomos.
Limitations:
El tamaño del punto de referencia (101 consultas) puede ser relativamente limitado.
Puede que no refleje perfectamente diversas situaciones del mundo real.
Tal vez sea necesario mejorar los métodos de evaluación e integrar herramientas más diversas.
👍