本論文では、大規模言語モデル(LLM)トレーニング時に発生するデータ並列処理の過程での通信オーバーヘッドを削減し、メモリ効率を高める新しい分散最適化アルゴリズムであるACCO(Accumulate while Communicate)を提案します。 ACCOは、遅延グラデーションを同期しながら新しいグラデーションを計算し、GPUアイドル時間を短縮し、異種ハードウェアをサポートします。さらに、遅延更新による収束問題を軽減するために、標準的な分散最適化と訓練力学を一致させる技術を導入する。提案されたアルゴリズムはZeRO-1よりはるかに高速であり、異種ハードウェア環境で効果的に拡張されます。