Dans cet article, nous présentons un framework appelé DiaFORGE pour résoudre le problème des modèles de langage à grande échelle (LLM) qui peinent à distinguer les API d'entreprise aux fonctionnalités similaires et à les appeler correctement, même avec des entrées incomplètes. DiaFORGE se compose de trois étapes : la génération de conversations multi-tours pilotées par les personas, l'affinement du modèle, y compris le processus d'inférence, et l'évaluation de ses performances en situation réelle. En entraînant un modèle open source avec 3B à 70B paramètres avec DiaFORGE, nous obtenons une amélioration de 27 % du taux de réussite des appels d'API par rapport à GPT-4o et de 49 % par rapport à Claude-3.5-Sonnet. De plus, nous publions le benchmark DiaBENCH, composé de 5 000 spécifications d'API d'entreprise et de données de conversation vérifiées, afin de stimuler les recherches futures.