Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DistJoin: un estimador de cardinalidad de unión desacoplada basado en modulación de predicados neuronales adaptativos

Created by
  • Haebom

Autor

Kaixin Zhang, Hongzhi Wang, Ziqi Li, Yabin Lu, Yingze Li, Yu Yan, Yiming Guan

Describir

Este artículo define los tres desafíos de la estimación del tamaño de conjuntos basada en el aprendizaje (generalidad, precisión y actualizabilidad) como el "Dilema Triangular de la Estimación del Tamaño de Conjuntos" y propone DistJoin, un estimador eficiente del tamaño de conjuntos de unión basado en la distribución que utiliza un modelo multiautorregresivo. DistJoin utiliza por separado las distribuciones de probabilidad de tablas individuales para estimar el tamaño del conjunto de unión y logra eficiencia mediante la Modulación Adaptativa de Predicados Neurales (ANPM), un modelo de estimación de distribución de alto rendimiento. Además, abordamos formalmente el problema de acumulación de varianza de enfoques similares existentes mediante el análisis de varianza y reducimos eficazmente la varianza mediante un enfoque basado en la selectividad. DistJoin es el primer método basado en datos que admite uniones equitativas y no equitativas, ofreciendo alta precisión y actualizaciones rápidas y flexibles. Los resultados experimentales muestran que DistJoin logra la mayor precisión, robustez a las actualizaciones de datos y generalidad en comparación con los métodos existentes, a la vez que demuestra velocidades de actualización e inferencia comparables.

Takeaways, Limitations

Takeaways:
Presentamos el primer método basado en datos que admite uniones equitativas y no equitativas.
Lograr alta precisión, robustez en las actualizaciones de datos y generalidad simultáneamente.
Proporciona capacidades de actualización rápidas y flexibles.
Se presenta un nuevo enfoque para resolver el problema de acumulación distribuida de métodos existentes.
Limitations:
Falta de una explicación detallada de la implementación específica y las mejoras de rendimiento del ANPM.
Se necesitan resultados experimentales adicionales para diferentes conjuntos de datos y tipos de uniones.
Se requiere verificación adicional de escalabilidad y estabilidad en entornos operativos del mundo real.
👍