Cet article propose un framework Symbiosis qui résout les problèmes de surconsommation et de sous-utilisation de la mémoire GPU qui surviennent lors du réglage fin des modèles de langage à grande échelle (LLM) à l'aide de la technique de réglage fin à paramètres efficaces (PEFT). Les frameworks existants présentent des limites : ils nécessitent un déploiement distinct des instances du modèle de base pour chaque tâche lors du réglage fin ou de l'inférence utilisant plusieurs adaptateurs, ne prennent pas en charge le mélange de différentes méthodes PEFT ni la gestion indépendante des ressources, n'autorisent pas le partage des ressources entre les tâches d'inférence et de réglage fin, et manquent de protection de la confidentialité. Symbiosis résout ces problèmes en distribuant le modèle de base sous forme de service, permettant ainsi à plusieurs processus d'inférence ou de réglage fin de partager la couche du modèle de base. En séparant l'exécution des adaptateurs et des couches spécifiques au client de la couche fixe du modèle de base grâce à la technique d'exécution séparée, il offre une flexibilité dans la gestion des ressources, le choix des méthodes de réglage fin et l'atteinte des objectifs de performance. Les résultats de l’évaluation utilisant Llama2-13B montrent que quatre fois plus d’adaptateurs peuvent être réglés avec précision dans le même environnement GPU dans le même laps de temps par rapport aux méthodes existantes.