Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Le réglage fin centré sur la désambiguïsation rend les LLM d'appel d'outils d'entreprise plus réalistes et moins risqués

Created by
  • Haebom

Auteur

Ashutosh Hathidara, Julien Yu, Sebastian Schreiber

Contour

Dans cet article, nous présentons un framework appelé DiaFORGE pour résoudre le problème des modèles de langage à grande échelle (LLM) qui peinent à distinguer les API d'entreprise aux fonctionnalités similaires et à les appeler correctement, même avec des entrées incomplètes. DiaFORGE se compose de trois étapes : la génération de conversations multi-tours pilotées par les personas, l'affinement du modèle, y compris le processus d'inférence, et l'évaluation de ses performances en situation réelle. En entraînant un modèle open source avec 3B à 70B paramètres avec DiaFORGE, nous obtenons une amélioration de 27 % du taux de réussite des appels d'API par rapport à GPT-4o et de 49 % par rapport à Claude-3.5-Sonnet. De plus, nous publions le benchmark DiaBENCH, composé de 5 000 spécifications d'API d'entreprise et de données de conversation vérifiées, afin de stimuler les recherches futures.

Takeaways, Limitations

Takeaways:
Nous présentons le potentiel d’amélioration des performances dans LLM, en distinguant les API avec des fonctionnalités similaires et en appelant les API avec précision même avec des entrées incomplètes.
Fournit des repères dynamiques et des méthodologies d’évaluation pour l’évaluation des performances dans des environnements réels.
Nous publions un ensemble de données ouvert contenant 5 000 spécifications d'API d'entreprise et des données conversationnelles pour soutenir les recherches de suivi.
Le modèle développé via DiaFORGE a considérablement amélioré le taux de réussite des appels API par rapport aux modèles existants.
Limitations:
Une validation supplémentaire de la généralisabilité du benchmark DiaBENCH est nécessaire.
Les performances de généralisation sur différents types d’API d’entreprise nécessitent une étude plus approfondie.
Des recherches supplémentaires peuvent être nécessaires sur l’évolutivité et la maintenabilité du framework DiaFORGE.
👍