この論文は、分散学習(Split Learning、SL)におけるビジョントランスの中間活性化配信に必要な通信のオーバーヘッドを減らす新しい通信効率的なSLフレームワークであるAttention-based Double Compression(ADC)を提案します。 ADCは2つの並列圧縮戦略を統合しています。最初の戦略は、クライアントの最終層で計算された平均アテンションスコアに基づいて同様のサンプルのアクティベーションをマージすることで、クラスとは無関係に異なるクラスのサンプルをマージすることができ、一般化能力の低下や最終結果の減少なしに可能です。 2番目の戦略は最初の戦略に従い、最も意味のないトークンを捨てて通信コストをさらに削減します。これらの戦略を組み合わせることで、純電波の過程で送信されるデータ量を減らすだけでなく、グラデーションも自然に圧縮し、追加の調整やグラデーションの近似なしにモデル全体を学習できます。シミュレーションの結果、Attention-based Double Compressionは、高い精度を維持しながら通信オーバーヘッドを大幅に削減することで、最先端のSLフレームワークを上回ることを示しました。