Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Fusion de LED : atténuation des conflits sécurité-utilité lors de la fusion de modèles avec localisation-élection-disjointe

Created by
  • Haebom

Auteur

Qianli Ma, Dongrui Liu, Qian Chen, Linfeng Zhang, Jing Shao

Contour

Cet article se concentre sur la fusion de modèles, une solution sans apprentissage qui intègre plusieurs modèles spécifiques à une tâche afin de gérer l'importante charge de calcul et de données associée au réglage fin de modèles de langage à grande échelle (LLM) pré-entraînés pour des tâches spécialisées. Pour résoudre le compromis sécurité-utilité (où une généralité accrue compromet les mesures de sécurité) des méthodes de fusion de modèles existantes, nous identifions deux causes profondes : une mauvaise identification des neurones due à une simple sélection basée sur la taille des paramètres, et une interférence neuronale entre les tâches lors de la fusion. Pour résoudre ces problèmes, nous proposons LED-Merging, un cadre en trois étapes qui identifie les neurones spécifiques à une tâche à l'aide de propriétés basées sur le gradient, sélectionne dynamiquement les neurones importants par fusion d'importance multi-modèles et découple les mises à jour conflictuelles par isolation des paramètres. Des expériences approfondies sur Llama-3-8B, Mistral-7B et Llama2-13B démontrent que la fusion LED réduit efficacement les taux de réponses nocives (réduction de 31,4 % sur HarmBench pour Llama-3-8B-Instruct) tout en maintenant une performance d'utilisabilité de 95 % (précision de 52,39 % sur GSM8K). La fusion LED résout le compromis sécurité-utilité et fournit un paradigme léger et sans apprentissage pour la création de LLM multitâches robustes. Le code est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Identifier clairement les problèmes de sécurité et de convivialité des méthodes de fusion de modèles existantes et proposer des solutions.
Créez efficacement des LLM multitâches sans formation grâce à LED-Merging.
Atteindre deux objectifs simultanément : réduire les taux de réponse défavorable et maintenir les performances d’utilisabilité.
Nous présentons une technique de fusion de modèles légère et sans apprentissage pour réduire les coûts de calcul.
Limitations:
Une vérification supplémentaire des performances de généralisation de la méthode proposée est nécessaire.
Une évaluation de l’évolutivité pour diverses architectures et charges de travail LLM est nécessaire.
Il peut y avoir des limites à la détermination précise de l’importance d’un neurone pour une tâche particulière.
Il existe une marge d’optimisation et d’amélioration dans les méthodes d’isolement des paramètres.
👍