Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SourceSplice : sélection de sources pour les tâches d'apprentissage automatique

Created by
  • Haebom

Auteur

Ambarish Singh, Romila Pradhan

Contour

Cet article aborde la question de la qualité des données, essentielle à la performance prédictive des tâches d'apprentissage automatique (ML). Ce défi est exacerbé par la multitude de sources de données disponibles dans les organisations modernes. Les recherches existantes en matière de découverte de données se sont principalement concentrées sur la correspondance des métadonnées, la similarité sémantique ou l'identification des tables à combiner pour répondre à une requête spécifique, sans toutefois prendre en compte la qualité des sources pour garantir la performance des tâches d'apprentissage automatique ultérieures. Cet article aborde la question de la détermination du sous-ensemble optimal de sources de données à combiner pour former le jeu de données d'apprentissage principal d'une tâche d'apprentissage automatique donnée. À cette fin, nous proposons les frameworks SourceGrasp et SourceSplice, conçus pour sélectionner efficacement un sous-ensemble de sources approprié maximisant l'utilité des modèles d'apprentissage automatique ultérieurs. Ces deux algorithmes reposent sur l'idée fondamentale que les sources (ou combinaisons de sources) contribuent différemment à l'utilité de la tâche et doivent être sélectionnées avec soin. SourceGrasp utilise une métaheuristique basée sur la cupidité et la randomisation, tandis que le framework SourceSplice présente un mécanisme de sélection de sources inspiré de l'épissage génétique. Des évaluations expérimentales sur trois ensembles de données réelles et synthétiques démontrent que SourceSplice identifie efficacement les sous-ensembles de sources de données qui conduisent à une utilité élevée pour les tâches, même avec un nombre nettement plus restreint de sous-ensembles à explorer. Nous menons également des recherches sur la sensibilité des choix décisionnels de SourceSplice dans différents contextes.

Takeaways, Limitations

Takeaways:
Une nouvelle approche du problème de sélection des sources de données pour améliorer les performances des tâches ML.
L'algorithme SourceSplice sélectionne efficacement le sous-ensemble optimal de sources de données pour obtenir une utilité opérationnelle élevée.
Validation de l'efficacité de l'algorithme par évaluation expérimentale utilisant des jeux de données réels et synthétiques.
Vérification de la fiabilité de l'algorithme grâce à l'analyse de sensibilité de SourceSplice.
Limitations:
Les performances de l’algorithme proposé peuvent varier en fonction de l’ensemble de données et de la tâche ML utilisée.
Des recherches supplémentaires sont nécessaires pour déterminer si le mécanisme inspiré de l’épissage génétique de SourceSplice est applicable à tous les types de sources de données.
Une évaluation expérimentale sur des ensembles de données plus diversifiés et plus vastes est nécessaire.
Des recherches supplémentaires sont nécessaires sur la manière de déterminer la taille optimale du sous-ensemble pour des tâches ML spécifiques.
👍