Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Voir un monde dans une étincelle de neurone : démêler les interférences multitâches pour la fusion de modèles sans formation

Created by
  • Haebom

Auteur

Zitao Fang, Guodong DU, Shuyang Yu, Yifei Guo, Yiwei Zhang, Yiyao Cao, Jing Li, Ho-Kin Tang, Sim Kuan Goh

Contour

Cet article se concentre sur une technique de fusion de modèles intégrant plusieurs modèles affinés en un seul modèle multitâche. Cette technique vise à résoudre le problème de la dégradation des performances de généralisation lors du processus d'affinement d'un modèle pré-entraîné sur un jeu de données spécifique afin d'améliorer les performances spécifiques à une tâche. Les techniques de fusion de modèles existantes souffrent d'une dégradation des performances due à l'interférence entre les tâches et ne prennent pas en compte les rôles, la connectivité et l'activation des neurones. Cette étude présente NeuroMerging, un nouveau cadre de fusion de modèles basé sur les mécanismes neuronaux. NeuroMerging atténue l'interférence entre les tâches en décomposant les représentations spécifiques à chaque tâche en deux sous-espaces neuronaux complémentaires qui régulent la sensibilité des entrées et l'adaptabilité des tâches, fusionnant ainsi les modèles de diverses tâches sans apprentissage. Nous démontrons expérimentalement que notre approche surpasse les méthodes existantes sur divers benchmarks en traitement du langage naturel et en vision par ordinateur.

Takeaways, Limitations_

Takeaways:
Nous soulignons l’importance de la fusion de modèles basée sur les mécanismes neuronaux et fournissons de nouvelles perspectives pour atténuer les interférences entre les tâches et améliorer la fusion des connaissances.
NeuroMerging offre un moyen efficace de fusionner des modèles sur diverses tâches sans formation.
Il atteint des performances supérieures aux méthodes existantes en matière de traitement du langage naturel et de vision par ordinateur.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de NeuroMerging présentées dans cet article.
Une expérimentation approfondie avec une variété de modèles et d’ensembles de données pré-entraînés est nécessaire.
Une validation supplémentaire de la validité biologique de la décomposition des sous-espaces neuronaux peut être nécessaire.
👍