Reinforcement-aware Knowledge Distillation for LLM Reasoning

Created by

Haebom

저자

Zhaoyang Zhang, Shuli Jiang, Yantao Shen, Yuting Zhang, Dhananjay Ram, Shuo Yang, Zhuowen Tu, Wei Xia, Stefano Soatto

💡 개요

이 논문은 강화학습(RL)으로 성능이 향상된 거대 언어 모델(LLM)의 높은 추론 비용 문제를 해결하기 위해 지식 증류(KD)를 제안합니다. 기존 KD 방법이 RL 환경에서 발생하는 분포 불일치 및 목표 충돌 문제를 겪는다는 점을 지적하며, 이를 극복하기 위해 RL 과정에서 정책 업데이트에 도움이 될 때만 모방을 수행하는 RL-aware distillation (RLAD) 기법을 소개합니다. 핵심 기술인 Trust Region Ratio Distillation (TRRD)은 PPO/GRPO 스타일의 확률 비율 목적함수를 사용하여 장점 인식 및 신뢰 영역 제한적인 증류를 가능하게 합니다.

🔑 시사점 및 한계

•

RL 훈련 과정에서 발생하는 teacher-student 분포 불일치 문제를 효과적으로 해결하고, reward maximization과의 상충을 줄입니다.

•

제안하는 RLAD 기법은 다양한 논리 추론 및 수학 벤치마크에서 기존의 오프라인 증류, 표준 GRPO, KL 기반 증류 방식보다 뛰어난 성능을 보입니다.

•

TRRD는 탐험, 활용, 모방 간의 균형을 자연스럽게 맞춰 효율적인 지식 전달을 유도합니다.

•

제안된 방법의 복잡성과 특정 RL 알고리즘(PPO/GRPO)에 대한 의존성이 향후 연구에서 고려될 수 있습니다.

PDF 보기

Made with Slashpage