본 논문은 분산 학습(Split Learning, SL)에서 비전 트랜스포머의 중간 활성화 전달에 필요한 통신 오버헤드를 줄이는 새로운 통신 효율적인 SL 프레임워크인 Attention-based Double Compression (ADC)을 제안합니다. ADC는 두 가지 병렬 압축 전략을 통합합니다. 첫 번째 전략은 클라이언트 최종 계층에서 계산된 평균 어텐션 점수를 기반으로 유사한 샘플의 활성화를 병합하는 것으로, 클래스와 무관하게 서로 다른 클래스의 샘플도 병합할 수 있으며, 일반화 능력 저하나 최종 결과 감소 없이 가능합니다. 두 번째 전략은 첫 번째 전략을 따르며, 가장 의미 없는 토큰을 버려 통신 비용을 더욱 줄입니다. 이러한 전략들을 결합하면 순전파 과정에서 전송되는 데이터 양을 줄일 뿐만 아니라, 그래디언트도 자연스럽게 압축되어 추가적인 조정이나 그래디언트 근사 없이 전체 모델을 학습할 수 있습니다. 시뮬레이션 결과, Attention-based Double Compression은 높은 정확도를 유지하면서 통신 오버헤드를 크게 줄임으로써 최첨단 SL 프레임워크를 능가하는 것으로 나타났습니다.