Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

TabSketchFM : Apprentissage de représentations tabulaires basées sur des croquis pour la découverte de données sur des lacs de données

Created by
  • Haebom

Auteur

Aamod Khatiwada, Harsha Kokel, Ibrahim Abdelaziz, Subhajit Chaudhury, Julian Dolby, Oktie Hassanzadeh, Zhenhan Huang, Tejaswini Pedapati, Horst Samulowitz, Kavitha Srinivas

Contour

Cet article présente TabSketchFM, un modèle de table basé sur un réseau neuronal, qui répond au besoin croissant des entreprises d'identifier les tables connexes (tables pouvant être réunies, jointes ou constituant des sous-ensembles les unes des autres) dans leurs lacs de données. TabSketchFM améliore l'efficacité de la découverte de données des modèles de tables neuronales grâce à une méthode de pré-entraînement basée sur des croquis et affine le modèle pré-entraîné pour identifier les paires de tables pouvant être réunies, jointes et constituant des sous-ensembles. Il démontre des améliorations significatives des performances par rapport aux modèles de tables neuronales existants et met en évidence les croquis essentiels à chaque tâche grâce à des études d'ablation détaillées. De plus, le modèle affiné est utilisé pour effectuer une recherche de table (tâche consistant à trouver d'autres tables dans le pool de données pouvant être réunies, jointes ou constituant des sous-ensembles d'une table de requête), démontrant une amélioration significative des scores F1 par rapport aux techniques de pointe. Enfin, nous démontrons la généralisabilité du modèle en démontrant des performances significatives d'apprentissage par transfert sur divers ensembles de données et tâches.

Takeaways, Limitations

Takeaways:
Nous démontrons que la pré-formation basée sur des croquis peut améliorer les performances de découverte de données des modèles tabulaires de réseaux neuronaux.
Nous avons obtenu des améliorations de performances par rapport aux méthodes existantes dans les opérations d'identification de paires de tables de sous-ensembles et de recherche de tables, pouvant être jointes et réunies.
Nous avons démontré la capacité de généralisation du modèle grâce à d’excellentes performances d’apprentissage par transfert sur divers ensembles de données et tâches.
Les études d’ablation présentent clairement les croquis qui sont importants pour chaque tâche.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de la méthode de pré-apprentissage basée sur des croquis présentée dans cet article. Elle pourrait sur-adapter certains ensembles de données ou tâches.
Il existe un manque d’évaluation des performances et de l’évolutivité dans les environnements de lac de données à grande échelle du monde réel.
Des recherches supplémentaires sont nécessaires pour explorer son applicabilité à différents types de données (par exemple, les données non structurées).
👍