Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Communication Efficient Split Learning of ViTs with Attention-based Double Compression

Created by
  • Haebom

作者

Federico Alvetreti、Jary Pomponi、Paolo Di Lorenzo、Simone Scardapane

概要

この論文は、分散学習(Split Learning、SL)におけるビジョントランスの中間活性化配信に必要な通信のオーバーヘッドを減らす新しい通信効率的なSLフレームワークであるAttention-based Double Compression(ADC)を提案します。 ADCは2つの並列圧縮戦略を統合しています。最初の戦略は、クライアントの最終層で計算された平均アテンションスコアに基づいて同様のサンプルのアクティベーションをマージすることで、クラスとは無関係に異なるクラスのサンプルをマージすることができ、一般化能力の低下や最終結果の減少なしに可能です。 2番目の戦略は最初の戦略に従い、最も意味のないトークンを捨てて通信コストをさらに削減します。これらの戦略を組み合わせることで、純電波の過程で送信されるデータ量を減らすだけでなく、グラデーションも自然に圧縮し、追加の調整やグラデーションの近似なしにモデル全体を学習できます。シミュレーションの結果、Attention-based Double Compressionは、高い精度を維持しながら通信オーバーヘッドを大幅に削減することで、最先端のSLフレームワークを上回ることを示しました。

Takeaways、Limitations

Takeaways:
ビジョントランスベースの分散学習における通信オーバーヘッドを効果的に低減する新しい方法を提示
アテンションメカニズムを活用してデータ圧縮とグラデーション圧縮を同時に実現
クラスとは無関係のサンプルマージ戦略で、一般化のパフォーマンスを低下させることなく効率を向上させます。
追加の調整や近似なしでモデル学習が可能。
最先端のSLフレームワークと比較して高精度と低通信オーバーヘッドを達成。
Limitations:
シミュレーション結果のみが提示されており、実環境での性能検証が必要。
さまざまなデータセットとモデルの一般化パフォーマンス評価が必要です。
アテンションスコアに基づくサンプルマージ戦略の最適パラメータ設定に関するさらなる研究の必要性
トークン廃棄戦略の効率をさらに向上させる方法のさらなる研究が必要です。
👍