Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CRED-SQL : Amélioration de l'analyse texte-SQL des bases de données à grande échelle dans le monde réel grâce à la récupération et à l'exécution de clusters Description

Created by
  • Haebom

Auteur

Shaoming Duan, Zirui Wang, Chuanyi Liu, Zhibin Zhu, Yuhao Zhang, Peiyi Han, Liang Yan, Zewu Peng

Contour

Cet article propose le framework CRED-SQL pour améliorer la précision des systèmes Text-to-SQL, qui convertissent les requêtes en langage naturel (NLQ) en requêtes SQL dans les bases de données à grande échelle. Les systèmes Text-to-SQL existants souffrent d'une faible précision en raison d'erreurs de correspondance de schéma et de dérives sémantiques causées par des attributs sémantiquement similaires dans les bases de données volumineuses. CRED-SQL résout ce problème d'incompatibilité de schéma en identifiant précisément les tables et les colonnes liées aux NLQ grâce à une recherche de schéma à grande échelle basée sur des clusters. De plus, en introduisant le langage de description d'exécution (EDL), un langage de représentation intermédiaire entre NLQ et SQL, CRED-SQL décompose la tâche en deux étapes : Text-to-EDL et EDL-to-SQL. Cette décomposition exploite les puissantes capacités d'inférence des LLM tout en réduisant la dérive sémantique. Les résultats expérimentaux obtenus sur deux benchmarks inter-domaines à grande échelle, SpiderUnion et BirdUnion, démontrent l'efficacité et l'évolutivité de CRED-SQL en atteignant des performances de pointe.

Takeaways, Limitations

Takeaways:
Nous proposons un nouveau cadre, CRED-SQL, qui améliore considérablement la précision des systèmes Text-to-SQL dans les bases de données à grande échelle.
Résolution des problèmes d'inadéquation de schéma et de dérive sémantique grâce à la découverte de schémas basée sur des clusters et au langage de représentation intermédiaire EDL.
Atteindre des performances de pointe dans deux benchmarks à grande échelle.
Assurer la reproductibilité et l'extensibilité grâce au code ouvert.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation de la méthode proposée. Il est également nécessaire de vérifier sa dépendance à des structures de base de données ou des types de requêtes spécifiques.
Des recherches supplémentaires sont nécessaires pour optimiser la conception EDL et améliorer l’efficacité du processus de conversion EDL vers SQL.
Des évaluations de performances supplémentaires sont nécessaires pour les bases de données de tailles et de complexité variables.
👍