[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Symbiose : inférence multi-adaptateur et réglage fin

Created by
  • Haebom

Auteur

Saransh Gupta, Umesh Deshpande, Travis Janssen, Swami Sundararaman

Contour

Cet article propose un framework Symbiosis qui résout les problèmes de surconsommation et de sous-utilisation de la mémoire GPU qui surviennent lors du réglage fin des modèles de langage à grande échelle (LLM) à l'aide de la technique de réglage fin à paramètres efficaces (PEFT). Les frameworks existants présentent des limites : ils nécessitent un déploiement distinct des instances du modèle de base pour chaque tâche lors du réglage fin ou de l'inférence utilisant plusieurs adaptateurs, ne prennent pas en charge le mélange de différentes méthodes PEFT ni la gestion indépendante des ressources, n'autorisent pas le partage des ressources entre les tâches d'inférence et de réglage fin, et manquent de protection de la confidentialité. Symbiosis résout ces problèmes en distribuant le modèle de base sous forme de service, permettant ainsi à plusieurs processus d'inférence ou de réglage fin de partager la couche du modèle de base. En séparant l'exécution des adaptateurs et des couches spécifiques au client de la couche fixe du modèle de base grâce à la technique d'exécution séparée, il offre une flexibilité dans la gestion des ressources, le choix des méthodes de réglage fin et l'atteinte des objectifs de performance. Les résultats de l’évaluation utilisant Llama2-13B montrent que quatre fois plus d’adaptateurs peuvent être réglés avec précision dans le même environnement GPU dans le même laps de temps par rapport aux méthodes existantes.

Takeaways, Limitations

Takeaways:
Activation du réglage fin et de l'inférence LLM basés sur PEFT et économes en mémoire GPU.
Prise en charge de diverses méthodes PEFT et gestion indépendante des ressources.
Capacité à partager les ressources du modèle de base entre les tâches d'inférence et de réglage fin.
Fournit des fonctionnalités de protection de la confidentialité des utilisateurs.
Compatible avec la plupart des modèles de la bibliothèque Transformers.
Obtenez une efficacité de réglage fin quatre fois supérieure à celle des méthodes conventionnelles.
Limitations:
Les détails sur la mise en œuvre réelle et l’évolutivité du cadre Symbiosis peuvent manquer.
Des évaluations supplémentaires des performances de généralisation pour différentes tailles de LLM et d'adaptateur peuvent être nécessaires.
Une validation supplémentaire peut être nécessaire pour déterminer si des optimisations sont nécessaires pour des environnements matériels spécifiques et pour les performances dans des environnements matériels généraux.
👍