Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Construction et récupération efficaces de graphes de connaissances à partir de textes non structurés pour les systèmes RAG à grande échelle

Created by
  • Haebom

Auteur

Congmin Min, Rhea Mathew, Joyce Pan, Sahil Bansal, Abbas Keshavarzi, Amar Viswanathan Kannan

Contour

Dans cet article, nous proposons un cadre pour un déploiement évolutif et rentable de la génération augmentée de récupération basée sur les graphes (GraphRAG) en entreprise. L'adoption de GraphRAG existant a été limitée en raison de son coût de calcul élevé et de sa latence. Nous présentons donc deux innovations clés : (1) un pipeline de construction de graphes de connaissances basé sur les dépendances qui extrait les entités et les relations de textes non structurés en exploitant des bibliothèques NLP de qualité industrielle sans recourir à des modèles de langage à grande échelle (LLM), et (2) une stratégie de recherche de graphes légère qui combine l'identification hybride des nœuds de requête et une traversée efficace en une étape pour extraire des sous-graphes avec un rappel élevé et une faible latence. Les résultats expérimentaux obtenus avec l'ensemble de données SAP démontrent une amélioration des performances allant jusqu'à 15 % (LLM-as-Judge) et 4,35 % (RAGAS) par rapport aux modèles de base RAG existants, et atteignent 94 % des performances des graphes de connaissances basés sur LLM (61,87 % contre 65,83 %), tout en réduisant considérablement les coûts et en améliorant l'évolutivité. Cela démontre la faisabilité d’un système de raisonnement augmenté par récupération pratique, explicable et adaptable au domaine.

Takeaways, Limitations

Takeaways:
Réduisez la dépendance à LLM et présentez des possibilités de déploiement et de déploiement GraphRAG rentables.
Proposer un pipeline de construction de graphes de connaissances efficace exploitant des bibliothèques NLP de niveau industriel.
Obtenir des performances élevées et une faible latence avec une stratégie de recherche graphique légère.
Démontrer l’applicabilité de GraphRAG dans un environnement d’entreprise réel à grande échelle.
Présentation de la possibilité de développer un système de raisonnement augmenté par récupération explicable et adaptable au domaine.
Limitations:
Les performances du cadre proposé sont basées sur les résultats d’évaluation d’un ensemble de données SAP spécifique, et des recherches supplémentaires sont nécessaires sur sa généralisabilité à d’autres domaines ou ensembles de données.
La méthode de construction de graphes de connaissances basée sur les dépendances présente des performances légèrement inférieures à celles de la méthode LLM (61,87 % contre 65,83 %). Il est nécessaire de trouver des moyens de réduire davantage cet écart de performance.
Il existe un risque de dégradation des performances pour les questions complexes nécessitant une inférence en plusieurs étapes, en raison de la stratégie de recherche basée sur un parcours en une seule étape. Des recherches sont nécessaires pour améliorer les performances de l'inférence en plusieurs étapes.
👍