Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs

Created by
  • Haebom

作者

Anshumann, Mohd Abbas Zaidi, Akhil Kedia, Jinwoo Ahn, Taehwak Kwon, Kangwook Lee, Haejun Lee, Joohyung Lee

概要

本論文は,大規模言語モデルにおいて知識蒸留を効率的に実行する方法を提示した。先生モデルの出力ロジットを事前に計算してキャッシュする知識蒸留は費用対効果が高いですが、事前トレーニングに適用することはまだ未開拓の分野です。従来のTop-K確率キャッシングのような希少知識蒸留法は、教師の確率分布の偏った推定値を生徒モデルに提供し、パフォーマンスの低下と補正の問題を引き起こすことを明らかにした。そこで、本論文では重要度サンプリングベースの新しい方法である「Random Sampling Knowledge Distillation」を提案します。この方法は、偏りのない推定値を提供し、期待値からの傾きを保存し、はるかに稀なロジットを保存するだけです。 3億から30億のパラメータスケールのさまざまなモデルで、クロスエントロピーベースのトレーニングと比較して10%未満のオーバーヘッドで学生モデルのトレーニングを高速化し、知識の全蒸留と比較して競争力のあるパフォーマンスを維持します。

Takeaways、Limitations

Takeaways:
重要度サンプリングベースの希少知識蒸留法「Random Sampling Knowledge Distillation」を提案し、大規模言語モデルの事前訓練速度を向上させました。
従来のTop-K法のLimitationsを明らかにし,偏向されない推定値を提供する方法を提示した。
3億から30億のパラメータ規模のさまざまなモデルで効率と性能を検証しました。
全知識蒸留に比べて競争力のある性能を維持しながらも訓練速度を向上させました。
Limitations:
提案された方法の効果は、特定のモデルサイズ範囲(3億〜30億パラメータ)で検証されており、異なるサイズのモデルではパフォーマンスが異なる場合があります。
実験は特定のデータセットに限定されており、他のデータセットでの一般化性能にはさらなる研究が必要です。
「Random Sampling Knowledge Distillation」法の最適なハイパーパラメータ設定に関する追加の研究が必要になる場合があります。
👍