Cette étude analyse expérimentalement l'impact relatif de la qualité et de la quantité des données d'entraînement sur les performances des modèles linguistiques à petite échelle (SLM) à l'aide du jeu de données TinyStories. Nous avons mené des expériences en faisant varier la taille du jeu de données (25 % et 50 % de l'original) et le taux de redondance (25 %, 50 %, 75 % et 100 %). Les résultats de l'évaluation des performances du modèle via des mesures de perte de validation, de précision et de perplexité montrent que la qualité des données d'entraînement joue un rôle plus important dans les performances globales des SLM, notamment compte tenu de l'ampleur de cette expérience. Alors qu'une redondance minimale améliorait légèrement la précision du modèle (augmentation de 0,87 % de la précision à 25 % de redondance), une redondance excessive entraînait une diminution des performances (diminution de 40 % de la précision à 100 % de redondance). Au-delà des performances du modèle, cette étude fournit des Takeaways qui peuvent contribuer à la démocratisation de l'IA en prenant en compte les enjeux économiques et environnementaux de l'entraînement des modèles à grande échelle.