Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Codage croisé au fil du temps : suivi de l'émergence et de la consolidation des représentations linguistiques tout au long de la formation préparatoire au LLM

Created by
  • Haebom

Auteur

Deniz Bayazit, Aaron Mueller, Antoine Bosselut

Contour

Cet article présente une méthode de découverte et d'alignement de caractéristiques entre les points de contrôle d'un modèle, utilisant des codeurs croisés clairsemés. Cette méthode permet de comprendre quand et comment des compétences linguistiques spécifiques émergent lors du pré-entraînement de modèles linguistiques à grande échelle (LLM). Notre objectif est de surmonter les limites des approches d'analyse comparative existantes et de comprendre l'entraînement des modèles au niveau conceptuel. Plus précisément, nous entraînons des codeurs croisés sur trois paires de points de contrôle open source présentant des variations significatives de performance et de représentation, et introduisons une nouvelle mesure, l'effet indirect relatif (RelIE), pour suivre les phases d'entraînement où des caractéristiques individuelles deviennent causalement importantes pour la performance de la tâche. Nous démontrons que cela permet de détecter l'émergence, la rétention et la perturbation de caractéristiques lors du pré-entraînement. Cette méthode, indépendante de l'architecture et hautement évolutive, offre une voie prometteuse vers une analyse interprétable et fine de l'apprentissage des représentations lors du pré-entraînement.

Takeaways, Limitations_

Takeaways:
Améliorer la compréhension du calendrier et du déroulement de l’émergence de compétences linguistiques spécifiques dans les cours de formation pré-LLM.
Une nouvelle méthode d’analyse utilisant le codeur croisé clairsemé et la métrique RelIE est présentée.
Une méthode d’analyse indépendante de l’architecture et évolutive qui peut être appliquée à divers modèles.
Améliorer l’interprétabilité du processus de formation du modèle.
Limitations:
Une validation supplémentaire de la précision et de la fiabilité de l’indice RelIE est nécessaire.
Limites méthodologiques du recours aux points de contrôle open source.
La possibilité de subjectivité dans l’interprétation de la signification causale des caractéristiques.
Problèmes de coûts de calcul pour les modèles à grande échelle.
👍