Cet article aborde la question de la qualité des données, essentielle à la performance prédictive des tâches d'apprentissage automatique (ML). Ce défi est exacerbé par la multitude de sources de données disponibles dans les organisations modernes. Les recherches existantes en matière de découverte de données se sont principalement concentrées sur la correspondance des métadonnées, la similarité sémantique ou l'identification des tables à combiner pour répondre à une requête spécifique, sans toutefois prendre en compte la qualité des sources pour garantir la performance des tâches d'apprentissage automatique ultérieures. Cet article aborde la question de la détermination du sous-ensemble optimal de sources de données à combiner pour former le jeu de données d'apprentissage principal d'une tâche d'apprentissage automatique donnée. À cette fin, nous proposons les frameworks SourceGrasp et SourceSplice, conçus pour sélectionner efficacement un sous-ensemble de sources approprié maximisant l'utilité des modèles d'apprentissage automatique ultérieurs. Ces deux algorithmes reposent sur l'idée fondamentale que les sources (ou combinaisons de sources) contribuent différemment à l'utilité de la tâche et doivent être sélectionnées avec soin. SourceGrasp utilise une métaheuristique basée sur la cupidité et la randomisation, tandis que le framework SourceSplice présente un mécanisme de sélection de sources inspiré de l'épissage génétique. Des évaluations expérimentales sur trois ensembles de données réelles et synthétiques démontrent que SourceSplice identifie efficacement les sous-ensembles de sources de données qui conduisent à une utilité élevée pour les tâches, même avec un nombre nettement plus restreint de sous-ensembles à explorer. Nous menons également des recherches sur la sensibilité des choix décisionnels de SourceSplice dans différents contextes.