Cet article propose une technique de distillation auto-supervisée d'ensembles de données (DSD) pour répondre aux coûts élevés associés aux ensembles de données volumineux nécessaires à l'entraînement de modèles d'apprentissage profond à grande échelle. Contrairement à la distillation supervisée classique, nous présentons une méthode de compression d'images et de représentations obtenues par apprentissage auto-supervisé dans un ensemble de données distillé. Pour y parvenir, nous proposons une nouvelle méthode de paramétrage des images et des représentations utilisant des bases de données de faible dimension, une technique d'augmentation prédéterminée pour remédier à l'instabilité de l'augmentation des données et un réseau léger pour la compression des paires de distillation. Des expériences sur différents ensembles de données démontrent l'efficacité de la méthode proposée, ses performances de généralisation sur différentes architectures et ses performances supérieures en apprentissage par transfert.