대규모 언어 모델(LLM)의 추론 능력 향상을 위해 일반적으로 사용되는 지도 미세 조정(SFT)과 강화 학습(RL)의 2단계 파이프라인은 문제점을 지닌다. 이 논문은 SFT와 RL을 별개의 방법론이 아닌 보완적인 보상 신호로 보고, SFT의 암묵적 보상과 RL의 명시적 보상 사이의 최적 균형을 학습하는 단일 단계 알고리즘인 Adaptive Meta Fine-Tuning (AMFT)를 제안한다. AMFT는 메타 기울기 적응 가중치 제어기를 사용하여 SFT-RL 균형을 학습 가능한 파라미터로 취급하며, 장기적인 작업 성능을 극대화하도록 동적으로 최적화한다. 수학적 추론, 추상적 시각적 추론, 시각 언어 내비게이션 벤치마크에서 새로운 SOTA를 달성했으며, OOD 작업에서도 우수한 일반화 성능을 보였다.