Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SourceSplice: Selección de fuentes para tareas de aprendizaje automático

Created by
  • Haebom

Autor

Ambarish Singh, Romila Pradhan

Describir

Este artículo aborda la cuestión de la calidad de los datos, que desempeña un papel fundamental en el rendimiento predictivo de las tareas de aprendizaje automático (ML). Este desafío se ve agravado por la gran cantidad de fuentes de datos disponibles en las organizaciones modernas. La investigación sobre descubrimiento de datos se ha centrado principalmente en la coincidencia de metadatos, la similitud semántica o la identificación de tablas que deben combinarse para responder a una consulta específica, pero no ha considerado la calidad de la fuente para el alto rendimiento de las tareas de ML posteriores. Este artículo aborda el problema de determinar el subconjunto óptimo de fuentes de datos que se combinará para formar el conjunto de datos de entrenamiento principal para una tarea de ML determinada. Para ello, proponemos los marcos SourceGrasp y SourceSplice, diseñados para seleccionar eficientemente un subconjunto adecuado de fuentes que maximice la utilidad de los modelos de ML posteriores. Ambos algoritmos se basan en la idea central de que las fuentes (o combinaciones de fuentes) contribuyen de forma diferente a la utilidad de la tarea y deben seleccionarse cuidadosamente. SourceGrasp emplea una metaheurística basada en la codicia y la aleatorización, mientras que el marco SourceSplice presenta un mecanismo de selección de fuentes inspirado en el empalme de genes. Evaluaciones experimentales en tres conjuntos de datos reales y sintéticos demuestran que SourceSplice identifica eficazmente subconjuntos de fuentes de datos que generan una alta utilidad de tarea, incluso con un número significativamente menor de subconjuntos por explorar. También realizamos investigaciones que informan sobre la sensibilidad de las decisiones de SourceSplice en diversos entornos.

Takeaways, Limitations

Takeaways:
Un nuevo enfoque al problema de la selección de fuentes de datos para mejorar el rendimiento de las tareas de aprendizaje automático.
El algoritmo SourceSplice selecciona eficientemente el subconjunto óptimo de fuentes de datos para lograr una alta utilidad operativa.
Validación de la efectividad del algoritmo mediante evaluación experimental utilizando conjuntos de datos reales y sintéticos.
Verificación de la confiabilidad del algoritmo a través del análisis de sensibilidad de SourceSplice.
Limitations:
El rendimiento del algoritmo propuesto puede variar según el conjunto de datos y la tarea de ML utilizada.
Se necesita más investigación para determinar si el mecanismo inspirado en el empalme genético de SourceSplice es aplicable a todos los tipos de fuentes de datos.
Se necesita una evaluación experimental en conjuntos de datos más diversos y grandes.
Se necesita más investigación sobre cómo determinar el tamaño de subconjunto óptimo para tareas de ML específicas.
👍