AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment

작성자

Haebom

카테고리

Empty

저자

Zhenlin Wei, Pu Jian, Yingzhuo Deng, Xiaohan Wang, Jiajun Chai, Zhexin Hu, Wei Lin, Shanbin Zhang, Guojun Yin

💡 개요

대규모 언어 모델(LLM)의 복잡한 추론 능력 향상은 검증 가능한 보상 기반 강화 학습(RLVR)에 크게 의존합니다. 기존 방법은 순차적 보상을 모든 토큰에 균일하게 적용하여 토큰별 기여도 할당에 병목 현상이 발생합니다. 본 논문은 이러한 문제를 해결하기 위해 진단 신호를 압축하여 간결한 힌트와 비평으로 만드는 비대칭 메타-반영 자기 증류(AMR-SD) 방법을 제안합니다.

🔑 시사점 및 한계

•

토큰 수준의 정확한 기여도 할당을 가능하게 하여 LLM의 복잡한 추론 능력을 효과적으로 향상시킵니다.

•

진단 신호를 압축하는 반사 병목 현상을 통해 직접적인 정답 노출로 인한 과적합 및 정보 누수 문제를 완화합니다.

•

과학, 수학, 도구 사용 등 다양한 벤치마크에서 기존 방법 대비 우수한 성능을 입증하며, 장기적인 안정성을 확보하고 훈련 후반부 붕괴를 방지합니다.

•

인과 정보 획득(CIG)과 비대칭 ReLU-게이트 임계값이라는 새로운 메커니즘을 도입하여 제안 방법의 혁신성을 강조합니다.

•

제안된 방법론의 일반적인 적용 가능성 및 다양한 LLM 아키텍처에서의 성능 검증이 추가적으로 필요할 수 있습니다.

PDF 보기

Made with Slashpage