Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Au-delà de l'échelle : le coefficient de diversité comme mesure de la qualité des données pour la variabilité des données en langage naturel

Created by
  • Haebom

Auteur

Brando Miranda, Alycia Lee, Sudharsan Sundar, Allison Casasola, Rylan Schaeffer, Elyas Obbad, Sanmi Koyejo

Contour

Dans cet article, nous présentons une mesure quantitative de la qualité des données, et plus particulièrement de leur diversité, lors du pré-apprentissage des modèles linguistiques à grande échelle (LLM). Les études précédentes sur le pré-apprentissage des LLM se sont principalement concentrées sur l'expansion de la taille des modèles et des ensembles de données, mais l'importance de la qualité des données n'a pas été clairement définie. En réponse, nous proposons une mesure appelée « coefficient de diversité » pour mesurer la diversité des données en langage naturel et la diversité des ensembles de données de pré-apprentissage accessibles au public. Grâce à des expériences sur 44 modèles (au total) de tailles diverses (de 51 M à 7 B paramètres) utilisant GPT-2 et LLaMAv2, nous montrons que le coefficient de diversité proposé est corrélé aux performances d'évaluation du modèle en aval. En conclusion, le coefficient de diversité est un aspect important de la qualité des données et capture la relation causale entre la diversité des données et l'amélioration des performances du modèle.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouvel indice (coefficient de diversité) pour mesurer quantitativement la diversité des données de pré-formation LLM.
Démontrer expérimentalement que le coefficient de diversité est étroitement lié aux performances de fonctionnement en aval du LLM.
Présentation de nouvelles orientations pour améliorer la qualité des données.
Résultats cohérents sur des modèles de différentes tailles.
Limitations:
Les coefficients de diversité peuvent ne pas couvrir tous les aspects de la qualité des données (il faut prendre en compte d’autres facteurs en plus de la diversité)
ÉTant donné qu’il s’agit de résultats expérimentaux pour un ensemble de données et un modèle spécifiques, des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité.
Les coefficients de diversité peuvent être coûteux à calculer.
Des recherches supplémentaires sont nécessaires sur la manière de créer des ensembles de données qui optimisent les coefficients de diversité.
👍