Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Voir un monde dans une étincelle de neurone : démêler les interférences multitâches pour la fusion de modèles sans formation

Created by
  • Haebom

Auteur

Zitao Fang, Guodong DU, Shuyang Yu, Yifei Guo, Yiwei Zhang, Yiyao Cao, Jing Li, Ho-Kin Tang, Sim Kuan Goh

Contour

Cet article explore une technique de fusion de modèles intégrant plusieurs modèles affinés en un seul modèle multitâche afin de remédier à la dégradation de la généralisation qui survient lors de l'affinement d'un modèle pré-entraîné sur un jeu de données spécifique. Les méthodes de fusion de modèles existantes ne prennent pas en compte les rôles, la connectivité et l'activation des neurones, ce qui entraîne une dégradation des performances due à l'interférence entre les tâches. Cette étude présente NeuroMerging, un nouveau cadre de fusion de modèles basé sur les mécanismes neuronaux. NeuroMerging décompose les représentations spécifiques aux tâches en deux sous-espaces neuronaux complémentaires qui régulent la sensibilité aux entrées et l'adaptabilité des tâches, atténuant ainsi l'interférence entre les tâches et fusionnant les modèles entre diverses tâches sans apprentissage. Nous démontrons expérimentalement que notre approche surpasse les méthodes existantes sur des tests multitâches dans les domaines du langage naturel et de la vision. Cela souligne l'importance d'aligner les mécanismes neuronaux dans la fusion de modèles et offre de nouvelles perspectives pour atténuer l'interférence entre les tâches et améliorer la fusion des connaissances.

Takeaways, Limitations

Takeaways:
Nous présentons NeuroMerging, un nouveau cadre de fusion de modèles qui prend en compte les mécanismes des neurones.
Résout efficacement le problème d'interférence des tâches des méthodes de fusion de modèles existantes, qui est Limitations
Obtenir des performances supérieures aux méthodes existantes dans les domaines du langage naturel et de la vision.
Souligne l’importance des mécanismes neuronaux dans la fusion de modèles et fournit de nouvelles perspectives pour améliorer la fusion des connaissances.
Limitations:
Une validation supplémentaire est nécessaire pour garantir que les améliorations de performances de NeuroMerging sont cohérentes dans tous les tests multitâches.
La nécessité d’évaluer les performances de généralisation sur différentes architectures de modèles et ensembles de données.
Une analyse du coût informatique et de la complexité de NeuroMerging est nécessaire.
👍