En este artículo, proponemos AlignDistil, un método novedoso para superar las limitaciones del aprendizaje de refuerzo basado en recompensas a nivel de respuesta (RLHF) y la optimización de preferencia directa (DPO) dispersos existentes para la alineación de modelos de lenguaje a gran escala (LLM). AlignDistil es un método de destilación equivalente a RLHF para la optimización de recompensas a nivel de token. Probamos teóricamente la equivalencia del proceso de destilación a nivel de token introduciendo la recompensa aprendida en DPO en la función objetivo de RLHF. Utiliza una distribución maestra que combina linealmente los logits del modelo DPO y el modelo de referencia. Además, reducimos la brecha de precisión entre la recompensa del modelo DPO y el modelo de recompensa pura a través de recompensas DPO contrastivas utilizando modelos DPO normales e inversos, y construimos una distribución maestra adecuada para cada token a través de un mecanismo de extrapolación logit adaptativo de tokens para prevenir el sobreajuste y el subajuste. Los resultados experimentales muestran que AlignDistil tiene mejor rendimiento y una convergencia más rápida que los métodos existentes.