Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level

작성자

Haebom

카테고리

Empty

저자

Nan Jia, Haojin Yang, Xing Ma, Jiesong Lian, Shuailiang Zhang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Zequn Sun

💡 개요

본 연구는 기존 On-Policy Distillation (OPD)의 높은 분산, 기울기 소실, 탐색 병목 현상과 같은 구조적 약점을 해결하기 위해 Asymmetric On-Policy Distillation (AOPD)을 제안합니다. AOPD는 음의 이득이 없는 영역에서 효과 없는 음의 강화 대신 지역적 발산 최소화를 사용하여 긍정적 강화 학습을 유지하면서 성능을 향상시킵니다. 수학적 추론 벤치마크 실험 결과, AOPD는 표준 OPD 대비 일관되게 우수한 성능을 보였으며, 특히 초기화 강도에 따라 4.09% 및 8.34%의 평균 성능 향상을 달성했습니다.

🔑 시사점 및 한계

•

AOPD는 기존 OPD의 단점을 극복하고 강화 학습 및 모방 학습을 효과적으로 결합하여 토큰 수준에서 더 나은 성능을 달성합니다.

•

AOPD는 훈련 과정에서 더 높은 정책 엔트로피를 유지하며, 순차적 도구 사용 적응 시 더 나은 능력 보존을 보여줍니다.

•

제안된 방법론이 다양한 복잡한 환경에서도 효과적인지, 그리고 다양한 초기화 조건에 대한 성능 민감도 분석이 추가적으로 필요합니다.

PDF 보기

Made with Slashpage