Trong bài báo này, chúng tôi đề xuất AlignDistil, một phương pháp mới để khắc phục những hạn chế của phương pháp học tăng cường dựa trên phần thưởng (RLHF) ở cấp độ phản hồi và phương pháp tối ưu hóa sở thích trực tiếp (DPO) thưa thớt hiện có để căn chỉnh các mô hình ngôn ngữ quy mô lớn (LLM). AlignDistil là một phương pháp chưng cất tương đương RLHF để tối ưu hóa phần thưởng ở cấp độ mã thông báo. Về mặt lý thuyết, chúng tôi chứng minh tính tương đương của quy trình chưng cất ở cấp độ mã thông báo bằng cách đưa phần thưởng học được trong DPO vào hàm mục tiêu RLHF. Phương pháp này sử dụng phân phối của giáo viên kết hợp tuyến tính các logit của mô hình DPO và mô hình cơ sở. Ngoài ra, chúng tôi giảm khoảng cách độ chính xác giữa phần thưởng của mô hình DPO và mô hình phần thưởng thuần túy thông qua phần thưởng DPO tương phản bằng cách sử dụng các mô hình DPO chuẩn và nghịch đảo, và chúng tôi xây dựng một phân phối của giáo viên phù hợp với từng mã thông báo thông qua cơ chế ngoại suy logit thích ứng của mã thông báo để ngăn ngừa tình trạng quá khớp và thiếu khớp. Kết quả thực nghiệm cho thấy AlignDistil có hiệu suất tốt hơn và hội tụ nhanh hơn so với các phương pháp hiện có.