SPD: Sync-Point Drop for Efficient Tensor Parallelism of Large Language Models
Created by
Haebom
저자
Han-Byul Kim, Duc Hoang, Arnav Kundu, Mohammad Samragh, Minsik Cho
개요
본 논문은 대규모 언어 모델(LLM)의 분산 추론에서 발생하는 통신 오버헤드 문제를 해결하기 위해 새로운 최적화 기법인 Sync-Point Drop (SPD)을 제안합니다. SPD는 텐서 병렬 처리에서 어텐션 출력에 대한 동기화를 선택적으로 생략하여 통신 오버헤드를 줄입니다. 이는 어텐션 블록의 설계 변경과 정확도 민감도에 따른 SPD 전략 적용을 통해 이루어집니다. 실험 결과, LLaMA2-70B 모델의 8개 GPU 분산 추론에서 약 20%의 추론 지연 시간 감소와 1% 미만의 정확도 저하를 달성했습니다.