[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

La qualité ou la quantité des données de formation a-t-elle plus d’impact sur les performances des petits modèles linguistiques ?

Created by
  • Haebom

Auteur

Aryen Sajith, Krishna Chaitanya Rao Kathala

Contour

Cette étude analyse expérimentalement l'impact relatif de la qualité et de la quantité des données d'entraînement sur les performances des modèles linguistiques à petite échelle (SLM) à l'aide du jeu de données TinyStories. Nous avons mené des expériences en faisant varier la taille du jeu de données (25 % et 50 % de l'original) et le taux de redondance (25 %, 50 %, 75 % et 100 %). Les résultats de l'évaluation des performances du modèle via des mesures de perte de validation, de précision et de perplexité montrent que la qualité des données d'entraînement joue un rôle plus important dans les performances globales des SLM, notamment compte tenu de l'ampleur de cette expérience. Alors qu'une redondance minimale améliorait légèrement la précision du modèle (augmentation de 0,87 % de la précision à 25 % de redondance), une redondance excessive entraînait une diminution des performances (diminution de 40 % de la précision à 100 % de redondance). Au-delà des performances du modèle, cette étude fournit des Takeaways qui peuvent contribuer à la démocratisation de l'IA en prenant en compte les enjeux économiques et environnementaux de l'entraînement des modèles à grande échelle.

Takeaways, Limitations

Takeaways:
Nous démontrons empiriquement que la qualité des données est plus importante que la quantité pour améliorer les performances des modèles linguistiques à petite échelle.
Un niveau approprié de redondance des données peut contribuer à améliorer les performances du modèle, mais une redondance excessive peut en réalité entraîner une dégradation des performances.
Une approche centrée sur la qualité des données peut répondre aux défis liés aux coûts et à l’environnement liés à la formation de modèles à grande échelle et accroître l’accessibilité à la technologie de l’IA.
Limitations:
ÉTant donné que nous avons uniquement mené nos expériences en utilisant l’ensemble de données TinyStories, la généralisabilité à d’autres ensembles de données peut être limitée.
Manque de description détaillée des types et des structures des modèles linguistiques à petite échelle utilisés dans l’analyse.
Une explication claire de la manière dont les requêtes de données sont définies et mesurées est nécessaire.
👍