Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

L'affirmation de soi LLM peut être décomposée mécaniquement en composantes émotionnelles et logiques

Created by
  • Haebom

Auteur

Hikaru Tsujimura, Arush Tagade

Contour

Cet article étudie le problème de l'excès de confiance dans les modèles linguistiques à grande échelle (MLH) dans une perspective d'interprétabilité mécaniste. À l'aide du modèle open source Llama 3.2, affiné sur un jeu de données d'assertivité annoté par des humains, nous extrayons les activations résiduelles sur toutes les couches et localisons les expressions assertives à l'aide d'une mesure de similarité. Notre analyse identifie les couches les plus sensibles aux contrastes d'assertivité et révèle que les expressions à forte assertivité se décomposent en deux sous-composantes orthogonales : les groupes affectif et logique, à l'instar du modèle de vraisemblance d'élaboration à double voie en psychologie. Les vecteurs directeurs dérivés de ces sous-composantes présentent des effets causaux distincts, les vecteurs affectifs exerçant une influence large sur la précision des prédictions, tandis que les vecteurs logiques exercent une influence plus localisée. Ces résultats fournissent des preuves mécanistes de la structure multicomposante de l'assertivité des LMH et suggèrent des stratégies pour atténuer les comportements d'excès de confiance.

Takeaways, Limitations_

Takeaways:
Il a été constaté que l'excès de confiance du LLM avait une structure à plusieurs composantes composée de deux sous-composantes : émotionnelle et logique.
Nous suggérons que les vecteurs directeurs des sous-composantes émotionnelles et logiques ont des effets différents sur la précision de la prédiction.
Une nouvelle approche pour atténuer le problème de la confiance excessive dans les LLM.
Améliorer la compréhension des mécanismes de fonctionnement internes du LLM en tirant parti de l'interprétabilité mécanique.
Limitations:
Le modèle utilisé dans cette étude se limitait à un modèle open source spécifique (Llama 3.2). Des recherches supplémentaires sont nécessaires pour déterminer sa généralisabilité à d'autres modèles.
Il convient de prendre en compte la qualité et le biais des ensembles de données annotés par l’homme.
La définition et la distinction entre les sous-composantes émotionnelles et logiques peuvent être subjectives.
Une validation supplémentaire de l’efficacité réelle et de la généralisabilité des mesures d’atténuation proposées est nécessaire.
👍