Bài báo này đề xuất một phương pháp mới để khắc phục những hạn chế của quy trình hai giai đoạn hiện có nhằm cải thiện hiệu suất suy luận của các mô hình ngôn ngữ quy mô lớn (LLM): tinh chỉnh học có giám sát (SFT) và học tăng cường (RL). Phương pháp này coi SFT và RL là các tín hiệu phần thưởng bổ sung. Để giải quyết những nhược điểm của các phương pháp hiện có, chẳng hạn như quên thảm khốc và sự đánh đổi không tối ưu giữa bắt chước và khám phá, chúng tôi đề xuất Adaptive Meta-Fine-Tuning (AMFT), một thuật toán một giai đoạn học được sự cân bằng tối ưu giữa phần thưởng cấp đường dẫn của SFT và phần thưởng dựa trên kết quả của RL bằng cách giới thiệu khái niệm phần thưởng ngầm định. Cốt lõi của AMFT là bộ điều khiển trọng số thích ứng siêu gradient tối ưu hóa động sự cân bằng SFT-RL như một tham số có thể học được để tối đa hóa hiệu suất tác vụ dài hạn. Nó tự động khám phá các quy trình học hiệu quả bằng cách đảm bảo tính ổn định bằng cách sử dụng entropy chính sách. AMFT đạt hiệu suất vượt trội trên nhiều chuẩn mực, bao gồm suy luận toán học, suy luận trực quan trừu tượng (Điểm Tổng quát) và khám phá ngôn ngữ trực quan (V-IRL), đồng thời thể hiện hiệu suất tổng quát hóa xuất sắc trong các tác vụ phân tán ngoài (OOD). Thông qua các nghiên cứu cắt bỏ và phân tích động lực học, chúng tôi chứng minh rằng bộ điều khiển siêu học đóng vai trò quan trọng trong tính ổn định, hiệu suất lấy mẫu và hiệu suất của AMFT.