Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

De la calidad de datos para IA a la IA para la calidad de datos: una revisión sistemática de herramientas para la gestión de la calidad de datos aumentada por IA en almacenes de datos

Created by
  • Haebom

Autor

Heidi Carolina Tamm, Anastasija Nikiforova

Describir

Este estudio es una revisión sistemática de la literatura que examina el estado actual de las herramientas existentes que respaldan la gestión de calidad de datos (DQM) basada en IA en entornos de almacenamiento de datos. Evaluamos 151 herramientas de DQM por sus capacidades de automatización, específicamente la detección de reglas de calidad de datos y las capacidades de recomendación en almacenes de datos. Después de un proceso de selección de varios pasos basado en la funcionalidad, la usabilidad, el cumplimiento y la compatibilidad arquitectónica con los almacenes de datos, solo 10 herramientas cumplieron los criterios para DQM basada en IA. Nuestro análisis reveló que la mayoría de las herramientas se centran en la limpieza y preparación de datos para la IA, y no en mejorar la DQM en sí misma mediante el aprovechamiento de la IA. Si bien existen técnicas de detección de reglas basadas en metadatos y aprendizaje automático, faltan capacidades como la especificación de reglas basada en SQL, la lógica de conciliación y la explicabilidad de las recomendaciones basadas en IA. Este estudio proporciona una guía práctica para la selección de herramientas y sugiere importantes requisitos de diseño para las soluciones de DQM basadas en IA de próxima generación, abogando por un cambio de paradigma de "calidad de datos para IA" a "IA para la gestión de la calidad de datos".

Takeaways, Limitations

Takeaways:
Presentamos claramente el estado actual y las limitaciones de las herramientas DQM basadas en IA y sugerimos futuras direcciones de investigación y desarrollo.
Proporciona orientación práctica para la selección de herramientas.
Proponemos un cambio de paradigma de “calidad de datos para IA” a “IA para la gestión de la calidad de datos”.
Destaca la importancia de desarrollar herramientas DQM basadas en IA en entornos de almacenamiento de datos.
Limitations:
El número de herramientas DQM utilizadas en el análisis puede ser limitado (151).
En función de nuestros criterios de selección, hemos limitado el número de herramientas que cumplen con nuestras capacidades DQM basadas en IA a 10.
Se necesita una evaluación más detallada de características específicas (especificación de reglas basadas en SQL, lógica de conciliación, explicabilidad).
Es necesario revisar la generalización a diferentes tipos de datos y entornos de almacén.
👍