Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

InfiR2: A Comprehensive FP8 Training Recipe for Reasoning-Enhanced Language Models

Created by
  • Haebom

作者

Wenjun Wang, Shuo Cai, Congkai Xie, Mingfa Feng, Yiming Zhang, Zhen Li, Kejing Yang, Ming Li, Jiannong Cao, Yuan Xie, Hongxia Yang

概要

大規模言語モデル(LLM)トレーニングの高い計算コストの問題を解決するために、FP8トレーニングの効率を最大化するオープントレーニングレシピを提示します。継続的な事前訓練と地図微調整を統合し、細かいハイブリッド精度の量子化戦略を使用して数値的精度を維持しながら計算効率を最大化します。 1600億トークンコーパスのモデルの継続的な事前訓練を含む広範な実験により、提案するレシピは安定しており、損失がほとんどなく、BF16ベースのモデルと同等の性能を達成することを実証した。最大22%のトレーニング時間の減少、14%の最大メモリ使用量の減少、19%のスループットの増加など、かなりの効率が向上しました。

Takeaways、Limitations

Takeaways:
FP8訓練による大規模言語モデル訓練の効率を改善する実用的な方法を提示した。
BF16ベースのモデルと同等の性能を維持しながら、トレーニング時間、メモリ使用量、スループットの面で大幅な改善を実現。
オープンソースコードを公開し、大規模モデルトレーニングのアクセシビリティを高める。
Limitations:
論文の具体的なモデルアーキテクチャや訓練の詳細の説明は限られているかもしれません。
FP8トレーニングの利点をすべてのモデルまたはデータセットに一般化できることを追加の研究が必要です。
FP8トレーニングのためのハードウェアとソフトウェアのサポートに依存する可能性があります。
👍