Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DistJoin : un estimateur de cardinalité de jointure découplée basé sur la modulation adaptative des prédicats neuronaux

Created by
  • Haebom

Auteur

Kaixin Zhang, Hongzhi Wang, Ziqi Li, Yabin Lu, Yingze Li, Yu Yan, Yiming Guan

Contour

Cet article définit les trois défis de l'estimation de la taille des ensembles par apprentissage (généralité, précision et actualisation) comme le « dilemme triangulaire de l'estimation de la taille des ensembles » et propose DistJoin, un estimateur efficace de la taille des ensembles de jointures basé sur la distribution et utilisant un modèle multi-autorégressif. DistJoin utilise séparément les distributions de probabilité des tables individuelles pour estimer la taille des ensembles de jointures et atteint son efficacité grâce à la modulation adaptative des prédicats neuronaux (ANPM), un modèle d'estimation de distribution à haut débit. De plus, nous abordons formellement le problème d'accumulation de variance des approches similaires existantes par l'analyse de la variance et réduisons efficacement la variance grâce à une approche basée sur la sélectivité. DistJoin est la première méthode pilotée par les données à prendre en charge les jointures équi- et non-équi-jointures, offrant une grande précision et des mises à jour rapides et flexibles. Les résultats expérimentaux montrent que DistJoin atteint la précision, la robustesse aux mises à jour des données et la généralité les plus élevées par rapport aux méthodes existantes, tout en affichant des vitesses de mise à jour et d'inférence comparables.

Takeaways, Limitations

Takeaways:
Nous présentons la première méthode basée sur les données qui prend en charge les jointures équi et non équi.
Atteindre simultanément une grande précision, une robustesse aux mises à jour des données et une généralité.
Fournit des capacités de mise à jour rapides et flexibles.
Une nouvelle approche pour résoudre le problème d’accumulation distribuée des méthodes existantes est présentée.
Limitations:
Manque d'explication détaillée de la mise en œuvre spécifique et des améliorations des performances de l'ANPM.
Des résultats expérimentaux supplémentaires sont nécessaires pour différents ensembles de données et types de jointure.
Une vérification supplémentaire de l’évolutivité et de la stabilité dans des environnements d’exploitation réels est nécessaire.
👍