Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

De la qualité des données pour l'IA à l'IA pour la qualité des données : une revue systématique des outils de gestion de la qualité des données augmentée par l'IA dans les entrepôts de données

Created by
  • Haebom

Auteur

Heidi Carolina Tamm, Anastasija Nikiforova

Contour

Cette étude est une revue systématique de la littérature qui examine l'état actuel des outils existants prenant en charge la gestion de la qualité des données (DQM) basée sur l'IA dans les environnements d'entrepôt de données. Nous avons évalué 151 outils de DQM pour leurs capacités d'automatisation, notamment leurs capacités de détection et de recommandation de règles de qualité des données dans les entrepôts de données. Après un processus de sélection en plusieurs étapes basé sur la fonctionnalité, la convivialité, la conformité et la compatibilité architecturale avec les entrepôts de données, seuls 10 outils répondaient aux critères de la DQM basée sur l'IA. Notre analyse a révélé que la plupart des outils se concentrent sur le nettoyage et la préparation des données pour l'IA, et non sur l'amélioration de la DQM elle-même en exploitant l'IA. Bien que des techniques de détection de règles basées sur les métadonnées et le ML existent, des fonctionnalités telles que la spécification de règles basée sur SQL, la logique de réconciliation et l'explicabilité des recommandations basées sur l'IA font défaut. Cette étude fournit des conseils pratiques pour la sélection des outils et suggère des exigences de conception importantes pour les solutions de DQM basées sur l'IA de nouvelle génération, plaidant pour un changement de paradigme de la « qualité des données pour l'IA » à « l'IA pour la gestion de la qualité des données ».

Takeaways, Limitations

Takeaways:
Nous présentons clairement l’état actuel et les limites des outils DQM basés sur l’IA et suggérons des orientations futures de recherche et de développement.
Fournit des conseils pratiques pour la sélection des outils.
Nous proposons un changement de paradigme de « la qualité des données pour l’IA » à « l’IA pour la gestion de la qualité des données ».
Souligne l’importance de développer des outils DQM basés sur l’IA dans les environnements d’entrepôt de données.
Limitations:
Le nombre d’outils DQM utilisés dans l’analyse peut être limité (151).
Sur la base de nos critères de sélection, nous avons limité à 10 le nombre d’outils répondant à nos capacités DQM basées sur l’IA.
Une évaluation plus détaillée des fonctionnalités spécifiques (spécification des règles basées sur SQL, logique de réconciliation, explicabilité) est nécessaire.
La généralisabilité à différents types de données et environnements d’entrepôt doit être examinée.
👍