Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Piloter le raisonnement du LLM grâce à l'adaptation basée uniquement sur les biais

Created by
  • Haebom

Auteur

Viacheslav Sinii, Alexey Gorbatovski, Artem Cherepanov, Boris Shaposhnikov, Nikita Balagansky, Daniil Gavrilov

Contour

Cet article présente une méthode utilisant l'apprentissage par renforcement pour entraîner un seul vecteur de pilotage d-dimensionnel par couche, tout en conservant les pondérations de base fixes. Cette méthode atteint des performances comparables à celles d'un modèle d'inférence entièrement optimisé par RL pour une tâche de raisonnement mathématique. La paramétrisation supplémentaire ne représente qu'environ 0,0016 % du modèle à 8 milliards de paramètres, et les performances sont reproductibles sur divers modèles de base et tests de raisonnement mathématique. Ces résultats réduisent la limite supérieure du budget paramétrique requis pour l'inférence de chaînes de pensée de grande dimension, suggérant que des millions de pondérations d'adaptateur sont inutiles. L'espace d'entraînement minimal réduit la communication entre la mémoire de l'optimiseur et le GPU, diminuant ainsi le coût global du réglage fin. De plus, l'analyse logit-lens démontre que les vecteurs appris amplifient les orientations de jetons cohérentes, offrant un aperçu clair du calcul interne du modèle.

Takeaways, Limitations

Takeaways: Une méthode efficace d'apprentissage des paramètres pour l'inférence de chaîne à haute dimension est présentée. Comparée aux méthodes existantes, elle atteint des performances équivalentes avec un nombre minimal de paramètres supplémentaires. Cela réduit les coûts de réglage fin et améliore également la compréhension du fonctionnement interne du modèle.
Limitations: Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de la méthode proposée. Des évaluations des performances sur différents types de tâches de raisonnement sont nécessaires. Les résultats pourraient être limités à certains types de raisonnement mathématique.
👍