Communication-Efficient Multi-Device Inference Acceleration for Transformer Models
Created by
Haebom
저자
Xiao Liu, Lijun Zhang, Deepak Ganesan, Hui Guan
개요
Transformer 모델의 높은 추론 지연 시간 문제를 해결하기 위해, 제한된 대역폭 환경에서도 효율적인 다중 장치 추론 프레임워크인 ASTRA를 제안합니다. ASTRA는 시퀀스 병렬 처리와 혼합 정밀도 어텐션 메커니즘을 통합하여 장치 간 통신을 최소화합니다. 벡터 양자화를 통해 비국소 토큰 임베딩을 압축하고, 노이즈 증강 양자화 및 분산 클래스 토큰을 통해 정확도를 유지합니다. 실험 결과, ViT와 GPT2를 사용한 이미지 및 자연어 처리 작업에서 단일 장치 추론 대비 최대 2.64배, 최첨단 다중 장치 추론 대비 최대 15.25배의 속도 향상을 달성했으며, 10Mbps의 낮은 대역폭에서도 작동합니다. 소스 코드는 https://github.com/xl1990/Astra 에서 공개됩니다.