Este artículo aborda la cuestión de la calidad de los datos, que desempeña un papel fundamental en el rendimiento predictivo de las tareas de aprendizaje automático (ML). Este desafío se ve agravado por la gran cantidad de fuentes de datos disponibles en las organizaciones modernas. La investigación sobre descubrimiento de datos se ha centrado principalmente en la coincidencia de metadatos, la similitud semántica o la identificación de tablas que deben combinarse para responder a una consulta específica, pero no ha considerado la calidad de la fuente para el alto rendimiento de las tareas de ML posteriores. Este artículo aborda el problema de determinar el subconjunto óptimo de fuentes de datos que se combinará para formar el conjunto de datos de entrenamiento principal para una tarea de ML determinada. Para ello, proponemos los marcos SourceGrasp y SourceSplice, diseñados para seleccionar eficientemente un subconjunto adecuado de fuentes que maximice la utilidad de los modelos de ML posteriores. Ambos algoritmos se basan en la idea central de que las fuentes (o combinaciones de fuentes) contribuyen de forma diferente a la utilidad de la tarea y deben seleccionarse cuidadosamente. SourceGrasp emplea una metaheurística basada en la codicia y la aleatorización, mientras que el marco SourceSplice presenta un mecanismo de selección de fuentes inspirado en el empalme de genes. Evaluaciones experimentales en tres conjuntos de datos reales y sintéticos demuestran que SourceSplice identifica eficazmente subconjuntos de fuentes de datos que generan una alta utilidad de tarea, incluso con un número significativamente menor de subconjuntos por explorar. También realizamos investigaciones que informan sobre la sensibilidad de las decisiones de SourceSplice en diversos entornos.