Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Vers des architectures neuronales distribuées

Created by
  • Haebom

Auteur

Aditya Cowsik, Tianyu He, Andreï Gromov

Contour

Cet article présente une méthode permettant d'introduire et d'entraîner une architecture de réseau neuronal distribué (ADN) dans les domaines de la vision et du langage. ADN est initialisée comme une proto-architecture composée de modules tels que des transformateurs, des MLP, des modules d'attention et des routeurs. Un jeton (ou patch) peut traverser une série arbitraire de modules dans n'importe quel ordre. ADN est une généralisation naturelle des méthodes parcimonieuses telles que le mélange d'experts, le mélange de profondeurs et le partage de paramètres. Les schémas de calcul et de communication des modules ADN sont appris de bout en bout pendant l'apprentissage et dépendent du contenu et du contexte de chaque jeton (ou patch). Ces schémas peuvent être façonnés par des exigences supplémentaires pour des objectifs d'optimisation tels que l'efficacité de calcul/mémoire ou la répartition de charge. Expérimentalement, nous montrons que l'ADN entraîné est compétitif par rapport aux modèles de base denses dans les deux domaines et peut apprendre l'efficacité de calcul/le partage de paramètres à partir des données. De plus, en analysant la connectivité d'émergence et les schémas de calcul de l'ADN entraîné, nous constatons que les chemins empruntés par les jetons à travers le modèle sont distribués selon une loi de puissance, et montrons que certains chemins (ou, de manière équivalente, groupes de modules) présentent une spécialisation d'émergence. Enfin, nous montrons que le modèle apprend à assigner des paramètres de calcul et d'activation de manière interprétable.

Takeaways, Limitations

Takeaways:
Nous présentons une structure généralisée pour les modèles clairsemés via une architecture de réseau neuronal distribué (ADN) et montrons que l'efficacité de calcul et le partage des paramètres peuvent être obtenus grâce à elle.
Nous démontrons que les modèles de calcul et de communication de l’ADN peuvent être appris à partir de données et façonnés en fonction d’objectifs d’optimisation.
Nous constatons que la connectivité et les modèles de calcul émergeant de l’ADN entraîné suivent une distribution de loi de puissance, révélant la spécialisation des groupes de modules.
Nous veillons à ce que le modèle apprenne à allouer des paramètres de calcul et d’activation de manière interprétable.
Atteint des performances compétitives avec des modèles de base denses dans les domaines de la vision et du langage.
Limitations:
D’autres études sont nécessaires pour étudier l’évolutivité générale de l’architecture d’ADN proposée et son applicabilité à diverses tâches.
Une analyse plus approfondie de la complexité du processus de formation de l’ADN et de la stabilité de la formation est nécessaire.
Des recherches approfondies sont nécessaires sur les stratégies d’optimisation des architectures d’ADN pour des tâches ou des ensembles de données spécifiques.
Manque d'explication théorique de la distribution de la loi de puissance et du mécanisme de spécialisation de l'émergence.
👍