Reinforcement-aware Knowledge Distillation for LLM Reasoning

작성자

Haebom

카테고리

Empty

저자

Zhaoyang Zhang, Shuli Jiang, Yantao Shen, Yuting Zhang, Dhananjay Ram, Shuo Yang, Zhuowen Tu, Wei Xia, Stefano Soatto

💡 개요

본 논문은 강화학습(RL)으로 미세조정된 대규모 언어 모델(LLM)의 높은 추론 비용 문제를 해결하기 위해 지식 증류(Knowledge Distillation, KD) 방식을 제안합니다. 기존 KD 방식이 RL 환경과 잘 맞지 않는 문제를 해결하기 위해, RL 과정 중에 정책 업데이트에 도움이 될 때만 선택적으로 교사를 모방하는 RL-aware distillation (RLAD) 방법을 제안합니다. 핵심 기술인 Trust Region Ratio Distillation (TRRD)은 교사와 학생 간의 KL 발산을 대체하여, 정책 업데이트를 안정적으로 유도하고 탐색, 활용, 모방 간의 균형을 맞춥니다.

🔑 시사점 및 한계

•

강화학습 기반 LLM의 효율적인 지식 증류를 위한 새로운 패러다임 제시

•

제안하는 RLAD 방법론이 기존 KD 방식보다 다양한 추론 능력 벤치마크에서 우수한 성능을 보임

•

탐색, 활용, 모방 간의 자연스러운 균형 조절을 통해 정책 업데이트 안정성 향상

•

다양한 LLM 아키텍처 및 RL 알고리즘에 대한 일반화 가능성 및 추가적인 하이퍼파라미터 튜닝 최적화 연구 필요

PDF 보기

Made with Slashpage