Este artículo señala que los benchmarks de llamadas a funciones existentes se centran únicamente en interacciones de un solo turno, ignorando la complejidad de los escenarios reales. Para abordar esto, presentamos una métrica llamada DICE-SCORE que evalúa la distribución de información relacionada con las herramientas, como nombres de funciones y valores de parámetros, en las conversaciones. Al analizar los benchmarks existentes con DICE-SCORE, se observan puntuaciones bajas, lo que enfatiza la necesidad de escenarios realistas. Por lo tanto, presentamos el marco DICE-BENCH, que construye un conjunto de datos práctico de llamadas a funciones mediante la síntesis de conversaciones mediante un grafo de herramientas que mantiene las dependencias entre rondas y un sistema multiagente con diversas personalidades que mejoran la naturalidad de las conversaciones. El conjunto de datos final consta de 1607 instancias de DICE-SCORE con un alto puntaje, y nuestros experimentos en 19 LLM muestran que se necesita un progreso significativo antes de que pueda implementarse eficazmente en entornos reales. El código y los datos están disponibles públicamente.