Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Activations Delta : une représentation pour les modèles de langage volumineux affinés
Created by
Haebom
Auteur
Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim
Contour
Cet article met en lumière l'émergence de puissants LLM open source, qui ont généré avec succès une vaste collection de modèles de langage à grande échelle (LLM) post-entraînés, adaptés à des tâches et des domaines variés. Cependant, des métadonnées incohérentes et des référentiels non structurés entravent l'exploration et la compréhension de ces modèles. Nous proposons les Activations Delta, une méthode permettant de représenter des modèles affinés sous forme d'intégrations vectorielles en mesurant l'évolution de l'activation interne par rapport au modèle de base. Cette représentation permet un clustering efficace entre domaines et tâches, révélant ainsi la structure du paysage du modèle. Les Activations Delta présentent des propriétés intéressantes, notamment une robustesse aux paramètres d'ajustement fin et des propriétés additives lorsque les jeux de données d'ajustement fin sont mélangés. De plus, les Activations Delta peuvent intégrer des tâches à travers plusieurs cycles d'ajustement fin, démontrant ainsi un potentiel supplémentaire pour la sélection et la fusion de modèles. Nous espérons que les Activations Delta faciliteront la réutilisation de modèles accessibles au public. Le code est disponible à l'adresse https://github.com/OscarXZQ/delta_activations .
Nous présentons l'activation delta, une nouvelle méthode permettant de représenter et de comparer efficacement des LLM affinés.
◦
Regroupez les LLM par domaine et par tâche pour faciliter l'exploration et la compréhension des modèles.
◦
Il suggère des applications potentielles dans la sélection et la fusion de modèles.
◦
Il peut promouvoir la réutilisation des LLM accessibles au public.
•
Limitations:
◦
Des recherches supplémentaires sont nécessaires pour déterminer dans quelle mesure les performances de l’activation delta se généralisent à travers différentes architectures LLM et paramètres de réglage fin.
◦
Des analyses plus approfondies sont nécessaires pour déterminer l’interprétabilité et la fiabilité de l’activation delta pour des tâches ou des domaines spécifiques.
◦
Une évaluation plus approfondie de l’évolutivité et du coût de calcul de la méthode proposée est nécessaire.