Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FZOO : Optimiseur rapide d'ordre zéro pour l'optimisation de grands modèles de langage vers une vitesse comparable à celle d'Adam

Created by
  • Haebom

Auteur

Sizhe Dang, Yangyang Guo, Yanjun Zhao, Haishan Ye, Xiaodong Zheng, Guang Dai, Ivor Tsang

Contour

Dans cet article, nous proposons un nouvel algorithme d'optimisation d'ordre zéro (ZO), FZOO, pour résoudre le goulot d'étranglement de la mémoire GPU qui survient lors du réglage fin des grands modèles de langage (LLM). Alors que l'algorithme d'optimisation ZO existant, MeZO, nécessite de nombreuses passes avant pour converger, FZOO réduit considérablement le nombre de passes avant grâce à l'estimation unilatérale par lots, l'adaptation de la taille des pas basée sur l'écart type, la perturbation vectorielle aléatoire Rademacher et le traitement parallèle CUDA. Les résultats expérimentaux sur divers modèles et 11 tâches, dont RoBERTa-large, OPT, Phi-2 et Llama3, montrent que FZOO améliore la précision de 3 % en moyenne tout en réduisant le nombre de passes avant de 3 fois par rapport à MeZO. Dans RoBERTa-large, il obtient une amélioration de la précision de 5,6 % et une réduction de 18 fois du nombre de passes avant, affichant une vitesse de convergence similaire à celle d'Adam. De plus, nous prouvons théoriquement l'équivalence formelle et la garantie de convergence avec la règle de mise à jour SGD régularisée, et permettons de plus grandes économies de mémoire grâce à une intégration transparente avec la technique PEFT.

Takeaways, Limitations

Takeaways:
Nous présentons une solution efficace au problème du réglage fin du modèle de langage à grande échelle, qui est difficile en raison des contraintes de mémoire du GPU.
Surmonte les limitations (vitesse de convergence lente) des algorithmes d'optimisation d'ordre zéro existants et atteint une vitesse de convergence similaire à celle d'Adam.
Démonstration de la faisabilité d'un réglage fin à grande vitesse et à paramètres complets à l'aide d'un seul GPU.
Présentation de nouvelles directions de recherche pour un pré-entraînement efficace en mémoire.
Potentiel d’économies de mémoire supplémentaires grâce à l’intégration avec la technique PEFT.
Limitations:
Une validation supplémentaire est nécessaire pour déterminer si les résultats expérimentaux présentés dans cet article peuvent être généralisés à tous les LLM et tâches.
Une étude comparative plus complète avec d’autres algorithmes d’optimisation est nécessaire.
Des extensions supplémentaires et des recherches approfondies sur l’analyse théorique sont nécessaires.
👍