Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

TabSketchFM: Aprendizaje de representación tabular basado en bocetos para el descubrimiento de datos en lagos de datos

Created by
  • Haebom

Autor

Aamod Khatiwada, Harsha Kokel, Ibrahim Abdelaziz, Subhajit Chaudhury, Julian Dolby, Oktie Hassanzadeh, Zhenhan Huang, Tejaswini Pedapati, Horst Samulowitz, Kavitha Srinivas

Describir

Este artículo presenta TabSketchFM, un modelo de tablas basado en redes neuronales, para abordar la creciente necesidad empresarial de identificar tablas relacionadas (tablas que se pueden unir, unir o que son subconjuntos entre sí) en sus lagos de datos. TabSketchFM mejora la eficiencia del descubrimiento de datos de los modelos de tablas neuronales mediante un método de preentrenamiento basado en bocetos y perfecciona el modelo preentrenado para identificar pares de tablas que se pueden unir, unir y formar subconjuntos. Demuestra mejoras significativas de rendimiento con respecto a los modelos de tablas neuronales existentes y destaca los bocetos cruciales para cada tarea mediante estudios detallados de ablación. Además, el modelo perfeccionado se utiliza para realizar búsquedas de tablas (la tarea de encontrar otras tablas en el conjunto de datos que se pueden unir, unir o que son subconjuntos de una tabla de consulta), lo que demuestra una mejora significativa en las puntuaciones F1 en comparación con las técnicas más avanzadas. Finalmente, demostramos la generalización del modelo mediante un rendimiento significativo del aprendizaje por transferencia en diversos conjuntos de datos y tareas.

Takeaways, Limitations

Takeaways:
Demostramos que el entrenamiento previo basado en bocetos puede mejorar el rendimiento del descubrimiento de datos de los modelos tabulares de redes neuronales.
Logramos mejoras de rendimiento con respecto a los métodos existentes en operaciones de identificación de pares de tablas de subconjuntos, unionables y unibles, y de búsqueda de tablas.
Demostramos la capacidad de generalización del modelo a través de un excelente desempeño de aprendizaje por transferencia en diversos conjuntos de datos y tareas.
Los estudios de ablación presentan claramente los bocetos que son importantes para cada tarea.
Limitations:
Se requiere más investigación para determinar la generalización del método de preentrenamiento basado en bocetos presentado en este artículo. Podría sobreajustarse a ciertos conjuntos de datos o tareas.
Hay una falta de evaluación del rendimiento y la escalabilidad en entornos de lagos de datos a gran escala del mundo real.
Se necesita más investigación para explorar su aplicabilidad a diferentes tipos de datos (por ejemplo, datos no estructurados).
👍