Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AMFT : Alignement des raisonneurs LLM par méta-apprentissage de l'équilibre optimal imitation-exploration

작성자
  • Haebom

Auteur

Lixuan He, Jie Feng, Yong Li

Contour

Cet article propose une nouvelle approche pour surmonter les limites du pipeline en deux étapes existant et améliorer les performances d'inférence des modèles linguistiques à grande échelle (LLM) : l'apprentissage supervisé avec réglage fin (SFT) et l'apprentissage par renforcement (RL). Cette approche considère le SFT et l'RL comme des signaux de récompense complémentaires. Pour remédier aux inconvénients des méthodes existantes, tels que l'oubli catastrophique et le compromis sous-optimal entre imitation et exploration, nous proposons l'algorithme de méta-réglage fin adaptatif (AMFT), un algorithme en une seule étape qui apprend l'équilibre optimal entre les récompenses au niveau du chemin du SFT et les récompenses basées sur les résultats de l'RL, en introduisant le concept de récompenses implicites. Au cœur de l'AMFT se trouve un contrôleur de pondération adaptatif à méta-gradient qui optimise dynamiquement l'équilibre SFT-RL en tant que paramètre apprenable afin de maximiser les performances des tâches à long terme. Il découvre de manière autonome les processus d'apprentissage efficaces en garantissant la stabilité grâce à l'entropie des politiques. AMFT atteint des performances de pointe sur divers tests, notamment le raisonnement mathématique, le raisonnement visuel abstrait (Points généraux) et l'exploration du langage visuel (V-IRL), et affiche d'excellentes performances de généralisation sur les tâches hors distribution (OOD). Grâce à des études d'ablation et à une analyse dynamique de l'apprentissage, nous démontrons que les contrôleurs de méta-apprentissage jouent un rôle crucial dans la stabilité, l'efficacité de l'échantillonnage et les performances d'AMFT.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouvel algorithme d'apprentissage en une seule étape, AMFT, qui surmonte les limites des méthodes de pipeline en deux étapes des SFT et RL existants.
Intégrez efficacement les signaux de récompense de SFT et RL en introduisant le concept de récompense implicite.
Amélioration des performances des tâches à long terme en optimisant dynamiquement l'équilibre SFT-RL via un contrôleur de poids adaptatif à méta-gradient.
A atteint des performances de pointe et d'excellentes performances de généralisation sur divers benchmarks.
Assurer la reproductibilité et l’évolutivité de la recherche grâce à la divulgation de code source ouvert.
Limitations:
Augmentation potentielle du coût de calcul en raison de la complexité de l'algorithme AMFT.
Une validation supplémentaire est nécessaire pour confirmer le potentiel d’optimisation pour des benchmarks spécifiques et les performances de généralisation pour d’autres types de tâches.
Une analyse et une interprétation plus approfondies du comportement des contrôleurs de poids adaptatifs à méta-gradient sont nécessaires.
👍