Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Hypothèse de l'ADN poubelle : l'élagage des petits poids pré-entraînés altère de manière irréversible et monotone les tâches « difficiles » en aval des LLM

Created by
  • Haebom

Auteur

Lu Yin, Ajay Jaiswal, Shiwei Liu, Souvik Kundu, Zhangyang Wang

Contour

Cet article propose une nouvelle approche centrée sur les tâches des pondérations pré-entraînées dans les modèles linguistiques à grande échelle (MLH) et propose l'hypothèse de l'ADN poubelle. On a traditionnellement cru que les pondérations des MLH présentaient une redondance significative, permettant de supprimer une part significative des paramètres sans dégradation des performances. Cependant, cet article réfute cette hypothèse. En effet, de faibles pondérations pré-entraînées codent des connaissances importantes, essentielles à la résolution de sous-tâches difficiles. Ceci est démontré par la relation selon laquelle la dégradation des performances des sous-tâches lorsque les pondérations pré-entraînées sont supprimées par ordre de taille varie de façon monotone avec le degré de difficulté. De plus, nous montrons que même si l'apprentissage continu des sous-tâches est autorisé, ces pondérations apparemment insignifiantes peuvent entraîner une perte irréversible de connaissances et une dégradation des performances sur les tâches difficiles. Il est intéressant de noter que d'autres méthodes de compression courantes, comme la quantification, ne présentent pas d'effets monotones similaires et ne parviennent pas à découpler de manière convaincante ces informations sur la difficulté des tâches. Pour les études formelles, nous introduisons plusieurs indicateurs quantifiables mesurant la difficulté des sous-tâches (1) au sein d'une même catégorie de tâches et (2) entre différentes catégories de tâches. Nous validons l'hypothèse de l'ADN poubelle grâce à des expériences approfondies portant sur une variété de tailles de modèles, de tâches, d'ensembles de données et de méthodes d'élagage.

Takeaways, Limitations

Takeaways:
La petite taille du LLM révèle que les poids contiennent des connaissances essentielles pour réaliser des sous-tâches difficiles.
Cela suggère que la simple réduction du poids présente à elle seule des limites dans l’optimisation des performances du LLM.
Une nouvelle perspective sur la compréhension de la structure hiérarchique des connaissances au sein des LLM à travers la relation monotone entre la dégradation des performances et la difficulté des tâches.
Contribution potentielle à une nouvelle compréhension des méthodes de compression LLM et au développement de stratégies de compression plus efficaces.
Limitations:
Une validation supplémentaire de la généralité et de l’objectivité des mesures de difficulté des tâches proposées est nécessaire.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des résultats expérimentaux à des architectures de modèles et des ensembles de données spécifiques.
Des recherches plus approfondies sont nécessaires dans l’analyse comparative avec d’autres méthodes de compression telles que la quantification.
👍