Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Comment la post-formation transforme les LLM : une vision mécaniste de la connaissance, de la véracité, du refus et de la confiance

Created by
  • Haebom

Auteur

Hongzhe Du, Weikai Li, Min Cai, Karim Saraipour, Zimin Zhang, Himabindu Lakkaraju, Yizhou Sun, Shichang Zhang

Contour

Cet article fournit une analyse mécaniste de la manière dont le processus post-apprentissage, essentiel à la transformation d'un modèle de langage à grande échelle (MLL) pré-entraîné en un modèle post-entraîné plus utile et aligné, restructure la structure interne du LLM. Nous comparons et analysons le modèle de base et les modèles post-entraînés à travers des familles de modèles et des ensembles de données sous quatre angles : les emplacements de stockage des connaissances factuelles, les représentations des connaissances, les représentations de vérité et de rejet, et les niveaux de confiance. Nous concluons que : premièrement, le post-apprentissage développe de nouvelles représentations des connaissances tout en adaptant les représentations des connaissances du modèle de base sans modifier les emplacements de stockage des connaissances factuelles. Deuxièmement, la vérité et le rejet peuvent être représentés comme des vecteurs dans l'espace de représentation caché, et l'orientation de vérité est très similaire entre le modèle de base et les modèles post-entraînés et se transfère efficacement aux interventions. Troisièmement, l'orientation de rejet diffère entre le modèle de base et les modèles post-entraînés, présentant une transférabilité limitée. Quatrièmement, les différences de confiance entre le modèle de base et les modèles post-entraînés ne peuvent être attribuées aux neurones entropiques. Cette étude donne un aperçu des mécanismes sous-jacents qui sont maintenus et modifiés pendant la post-formation, facilite les travaux ultérieurs tels que le réglage du modèle et éclaire potentiellement les recherches futures sur l'interprétabilité et le LLM après la formation.

Takeaways, Limitations

Takeaways:
Meilleure compréhension des mécanismes fondamentaux du post-entraînement
Contribuer à l'amélioration des travaux de suivi tels que le pilotage des modèles
Une nouvelle direction pour l'interprétabilité du LLM et la recherche post-formation
Identifier les changements dans la représentation des connaissances après la formation
Fournit une analyse de la représentation vectorielle et de la communicabilité des expressions de vérité et de déni.
Limitations:
ÉTant donné que les résultats de l’analyse concernent une série de modèles et un ensemble de données spécifiques, des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité.
Il convient de prendre en compte la possibilité de différences de fiabilité dues à des facteurs autres que les neurones d’entropie.
Des analyses supplémentaires et des mesures d’amélioration sont nécessaires pour remédier à la transmissibilité limitée de la direction de rejet.
👍