본 논문은 대규모 언어 모델(LLM) 정렬을 위해 토큰 수준 보상 최적화를 활용하는 새로운 방법인 AlignDistil을 제안합니다. 기존의 RLHF 및 DPO 방법들이 응답 전체에 대한 스파스한 보상을 사용하는 것과 달리, AlignDistil은 DPO로 학습된 보상을 RLHF 목적 함수에 통합하여 토큰 수준의 보상을 최적화합니다. 이는 DPO 모델과 참조 모델의 로짓을 선형 결합한 교사 분포를 이용한 토큰 수준 증류 과정과 동등함을 이론적으로 증명합니다. 또한, 정방향 및 역방향 DPO 모델을 사용한 대조 학습 기반 보상을 통해 DPO 모델과 순수 보상 모델 간의 정확도 차이를 해소하고, 토큰 적응형 로짓 외삽 메커니즘을 통해 각 토큰에 대한 적절한 교사 분포를 구성하여 과적합 및 과소적합을 방지합니다. 실험 결과, AlignDistil이 기존 방법보다 우수한 성능을 보이며 빠른 수렴 속도를 달성함을 보여줍니다.