Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Communication Efficient Split Learning of ViTs with Attention-based Double Compression

Created by
  • Haebom

저자

Federico Alvetreti, Jary Pomponi, Paolo Di Lorenzo, Simone Scardapane

개요

본 논문은 분산 학습(Split Learning, SL)에서 비전 트랜스포머의 중간 활성화 전달에 필요한 통신 오버헤드를 줄이는 새로운 통신 효율적인 SL 프레임워크인 Attention-based Double Compression (ADC)을 제안합니다. ADC는 두 가지 병렬 압축 전략을 통합합니다. 첫 번째 전략은 클라이언트 최종 계층에서 계산된 평균 어텐션 점수를 기반으로 유사한 샘플의 활성화를 병합하는 것으로, 클래스와 무관하게 서로 다른 클래스의 샘플도 병합할 수 있으며, 일반화 능력 저하나 최종 결과 감소 없이 가능합니다. 두 번째 전략은 첫 번째 전략을 따르며, 가장 의미 없는 토큰을 버려 통신 비용을 더욱 줄입니다. 이러한 전략들을 결합하면 순전파 과정에서 전송되는 데이터 양을 줄일 뿐만 아니라, 그래디언트도 자연스럽게 압축되어 추가적인 조정이나 그래디언트 근사 없이 전체 모델을 학습할 수 있습니다. 시뮬레이션 결과, Attention-based Double Compression은 높은 정확도를 유지하면서 통신 오버헤드를 크게 줄임으로써 최첨단 SL 프레임워크를 능가하는 것으로 나타났습니다.

시사점, 한계점

시사점:
비전 트랜스포머 기반 분산 학습에서 통신 오버헤드를 효과적으로 줄이는 새로운 방법 제시.
어텐션 메커니즘을 활용하여 데이터 압축 및 그래디언트 압축을 동시에 달성.
클래스와 무관한 샘플 병합 전략으로 일반화 성능 저하 없이 효율성 향상.
추가적인 조정이나 근사 없이 모델 학습 가능.
최첨단 SL 프레임워크 대비 높은 정확도와 낮은 통신 오버헤드 달성.
한계점:
시뮬레이션 결과만 제시되었으며, 실제 환경에서의 성능 검증 필요.
다양한 데이터셋 및 모델에 대한 일반화 성능 평가 필요.
어텐션 점수를 기반으로 한 샘플 병합 전략의 최적 파라미터 설정에 대한 추가 연구 필요.
토큰 버림 전략의 효율성을 더욱 높일 수 있는 방법에 대한 추가 연구 필요.
👍