Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Activation d'un alignement précis des sujets dans les grands modèles linguistiques via des autoencodeurs clairsemés

Created by
  • Haebom

Auteur

Ananya Joshi, Celia Cintas, porte-parole de Skyler

Contour

Cet article présente une nouvelle méthode permettant d'aligner la sortie générée sur des sujets arbitraires en utilisant des autoencodeurs clairsemés (SAE) appliqués aux couches d'un modèle linguistique à grande échelle (LLM). Sur la base d'une étude précédente montrant que les neurones SAE correspondent à des concepts interprétables, nous 1) évaluons chaque neurone SAE en fonction de sa similarité sémantique avec le texte cible de l'alignement, et 2) modifions la sortie au niveau de la couche SAE en mettant l'accent sur les neurones pertinents pour le sujet. Nous menons des expériences à l'aide de divers ensembles de données thématiques publics tels que les avis sur Amazon, la médecine et la flatterie, ainsi que de combinaisons LLM et SAE open source telles que GPT2 et Gemma. Les expériences d'alignement sur des messages médicaux montrent des avantages tels qu'une amélioration de l'acceptation linguistique moyenne (0,25 contre 0,5) par rapport au réglage fin, une réduction du temps d'apprentissage pour divers sujets (333,6 secondes contre 62 secondes) et un temps d'inférence acceptable (+0,00092 seconde/jeton) pour de nombreuses applications. Le code source est disponible à github.com/IBM/sae-steering에서.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour effectuer efficacement l'alignement des sorties LLM sur des sujets arbitraires.
Par rapport au réglage fin, il a été confirmé que le temps de formation était raccourci et que l'acceptation moyenne de la langue était améliorée.
Démontre l’applicabilité à diverses combinaisons LLM et SAE.
Améliorer l’accessibilité grâce à la divulgation du code source ouvert.
Limitations:
Une validation supplémentaire des performances de généralisation de la méthode proposée est nécessaire.
Manque de résultats expérimentaux complets pour diverses combinaisons LLM et SAE.
Possibilité de biais envers certains sujets.
Manque d’évaluation des performances dans des domaines autres que la médecine.
👍