Cornerstones or Stumbling Blocks? Deciphering the Rock Tokens in On-Policy Distillation
Author
Haebom
Category
Empty
저자
Yuxuan Jiang, Runchao Li, Shubhashis Roy Dipta, Dawei Li, Zhao Yang
💡 개요
본 연구는 온-폴리시 증류(OPD)에서 발생하는 고손실 토큰, 즉 '락 토큰(Rock Tokens)'의 역할을 규명합니다. 락 토큰은 학습이 수렴된 후에도 높은 손실을 유지하며, 학습 과정에서 크게 개선되지 않지만 모델의 전반적인 추론 성능에는 미미한 기여만 하는 것으로 나타났습니다. 이러한 발견은 증류 과정에서 불필요한 최적화 노력을 줄이고 효율적인 모델 정렬을 위한 새로운 방안을 제시합니다.
🔑 시사점 및 한계
•
온-폴리시 증류 과정에서 학습이 잘 되지 않는 '락 토큰'이 상당수 존재하며, 이들은 전체 그래디언트의 큰 부분을 차지하지만 실제 성능 향상에는 기여하지 못한다는 점을 발견했습니다.
•
'락 토큰'의 존재는 증류 시 모든 토큰에 동일한 가중치를 부여하는 것이 비효율적일 수 있음을 시사하며, 이러한 '장애물'을 전략적으로 무시함으로써 모델 정렬 과정을 효율화할 수 있는 가능성을 보여줍니다.
•
본 연구는 '락 토큰'이 왜 발생하는지에 대한 근본적인 원인 분석이 더 필요하며, 실제 모델 학습 및 배포 환경에서 이러한 전략이 얼마나 효과적일지에 대한 추가적인 검증이 요구됩니다.