Cet article propose une nouvelle approche pour surmonter les limites du pipeline en deux étapes existant et améliorer les performances d'inférence des modèles linguistiques à grande échelle (LLM) : l'apprentissage supervisé avec réglage fin (SFT) et l'apprentissage par renforcement (RL). Cette approche considère le SFT et l'RL comme des signaux de récompense complémentaires. Pour remédier aux inconvénients des méthodes existantes, tels que l'oubli catastrophique et le compromis sous-optimal entre imitation et exploration, nous proposons l'algorithme de méta-réglage fin adaptatif (AMFT), un algorithme en une seule étape qui apprend l'équilibre optimal entre les récompenses au niveau du chemin du SFT et les récompenses basées sur les résultats de l'RL, en introduisant le concept de récompenses implicites. Au cœur de l'AMFT se trouve un contrôleur de pondération adaptatif à méta-gradient qui optimise dynamiquement l'équilibre SFT-RL en tant que paramètre apprenable afin de maximiser les performances des tâches à long terme. Il découvre de manière autonome les processus d'apprentissage efficaces en garantissant la stabilité grâce à l'entropie des politiques. AMFT atteint des performances de pointe sur divers tests, notamment le raisonnement mathématique, le raisonnement visuel abstrait (Points généraux) et l'exploration du langage visuel (V-IRL), et affiche d'excellentes performances de généralisation sur les tâches hors distribution (OOD). Grâce à des études d'ablation et à une analyse dynamique de l'apprentissage, nous démontrons que les contrôleurs de méta-apprentissage jouent un rôle crucial dans la stabilité, l'efficacité de l'échantillonnage et les performances d'AMFT.