Cet article définit les trois défis de l'estimation de la taille des ensembles par apprentissage (généralité, précision et actualisation) comme le « dilemme triangulaire de l'estimation de la taille des ensembles » et propose DistJoin, un estimateur efficace de la taille des ensembles de jointures basé sur la distribution et utilisant un modèle multi-autorégressif. DistJoin utilise séparément les distributions de probabilité des tables individuelles pour estimer la taille des ensembles de jointures et atteint son efficacité grâce à la modulation adaptative des prédicats neuronaux (ANPM), un modèle d'estimation de distribution à haut débit. De plus, nous abordons formellement le problème d'accumulation de variance des approches similaires existantes par l'analyse de la variance et réduisons efficacement la variance grâce à une approche basée sur la sélectivité. DistJoin est la première méthode pilotée par les données à prendre en charge les jointures équi- et non-équi-jointures, offrant une grande précision et des mises à jour rapides et flexibles. Les résultats expérimentaux montrent que DistJoin atteint la précision, la robustesse aux mises à jour des données et la généralité les plus élevées par rapport aux méthodes existantes, tout en affichant des vitesses de mise à jour et d'inférence comparables.