Sign In

AlignDistil: Token-Level Language Model Alignment as Adaptive Policy Distillation

Created by
  • Haebom
Category
Empty

저자

Songming Zhang, Xue Zhang, Tong Zhang, Bojie Hu, Yufeng Chen, Jinan Xu

개요

본 논문은 대규모 언어 모델(LLM) 정렬을 위해 토큰 수준 보상 최적화를 활용하는 새로운 방법인 AlignDistil을 제안합니다. 기존의 RLHF 및 DPO 방법들이 응답 전체에 대한 스파스한 보상을 사용하는 것과 달리, AlignDistil은 DPO로 학습된 보상을 RLHF 목적 함수에 통합하여 토큰 수준의 보상을 최적화합니다. 이는 DPO 모델과 참조 모델의 로짓을 선형 결합한 교사 분포를 이용한 토큰 수준 증류 과정과 동등함을 이론적으로 증명합니다. 또한, 정방향 및 역방향 DPO 모델을 사용한 대조 학습 기반 보상을 통해 DPO 모델과 순수 보상 모델 간의 정확도 차이를 해소하고, 토큰 적응형 로짓 외삽 메커니즘을 통해 각 토큰에 대한 적절한 교사 분포를 구성하여 과적합 및 과소적합을 방지합니다. 실험 결과, AlignDistil이 기존 방법보다 우수한 성능을 보이며 빠른 수렴 속도를 달성함을 보여줍니다.

시사점, 한계점

시사점:
토큰 수준 보상 최적화를 통해 기존 RLHF 및 DPO 방식의 한계를 극복하고, LLM 정렬 성능을 향상시킬 수 있음을 제시합니다.
DPO와 RLHF의 장점을 결합하여 더욱 효율적이고 효과적인 LLM 정렬 방법을 제공합니다.
토큰 적응형 로짓 외삽 메커니즘을 통해 과적합 및 과소적합 문제를 완화합니다.
빠른 수렴 속도를 통해 LLM 훈련 시간을 단축할 수 있습니다.
한계점:
제안된 방법의 성능 향상이 특정 데이터셋이나 모델에 국한될 가능성이 있습니다. 더욱 광범위한 실험이 필요합니다.
토큰 적응형 로짓 외삽 메커니즘의 설계 및 매개변수 설정에 대한 추가적인 연구가 필요할 수 있습니다.
계산 비용 증가 가능성이 있습니다. 토큰 수준의 보상 최적화는 계산량이 증가할 수 있기 때문입니다.
👍