Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DReSS : rationalisation structurée et régularisée basée sur les données pour les grands modèles linguistiques

Created by
  • Haebom

Auteur

Mingkuan Feng, Jinyang Wu, Shuai Zhang, Pengpeng Shao, Ruihan Jin, Zhengqi Wen, Jianhua Tao, Feihu Che

Contour

Dans cet article, nous proposons une nouvelle méthode d'élagage, DReSS, pour pallier les coûts de calcul et de mémoire élevés des modèles de langage à grande échelle (LLM). Pour remédier au problème de dégradation des performances engendrée par les méthodes d'élagage existantes suite à l'affinage, DReSS propose un nouveau paradigme de normalisation-élagage-affinage. En normalisant la partie élaguée à l'aide d'une petite quantité de données, DReSS réduit la perte d'informations en prétransférant les informations importantes au reste du modèle, et améliore les performances de la modélisation du langage. Les résultats expérimentaux montrent que DReSS surpasse les méthodes existantes, même à des taux d'élagage extrêmes, et réduit considérablement la latence et augmente le débit.

Takeaways, Limitations

Takeaways:
Un nouveau paradigme (normalisation-élagage-réglage fin) pour un élagage efficace du LLM est présenté.
Atteint des performances supérieures même à des taux de taille extrêmes par rapport aux méthodes existantes
Réduisez la latence et augmentez le débit
Diffusion efficace d'informations à l'aide de petites quantités de données
Limitations:
L’efficacité de la méthode proposée peut varier en fonction du type d’ensemble de données et du modèle utilisé.
Des recherches supplémentaires sont nécessaires sur la quantité et le type de données requises pour le processus de normalisation.
Une validation supplémentaire est nécessaire quant à la généralisabilité à d’autres types de LLM et à différentes professions.
👍