Sign In

SPD: Sync-Point Drop for efficient tensor parallelism of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Han-Byul Kim, Duc Hoang, Arnav Kundu, Mohammad Samragh, Minsik Cho

개요

본 논문은 대규모 언어 모델(LLM)의 분산 추론에서 발생하는 통신 오버헤드를 줄이기 위한 새로운 최적화 기법인 Sync-Point Drop (SPD)을 제안합니다. Tensor Parallelism과 같은 기존 분산 추론 기법의 통신 오버헤드 문제를 해결하기 위해, SPD는 어텐션 출력에 대한 동기화를 선택적으로 생략하는 방식을 사용합니다. 이는 어텐션 블록의 설계 변경과 정확도 민감도에 기반한 SPD 전략 적용을 통해 구현됩니다. LLaMA2-70B 모델을 8개의 GPU에서 추론하는 실험 결과, SPD는 약 20%의 추론 지연 시간 감소와 1% 미만의 정확도 저하를 달성했습니다.

시사점, 한계점

시사점:
LLM 분산 추론의 통신 오버헤드 문제를 효과적으로 해결하는 새로운 방법 제시.
어텐션 출력 동기화 선택적 생략을 통해 scalability 및 low latency 달성.
실험 결과를 통해 SPD의 효율성과 실용성 검증.
다양한 분산 환경에서 확장성 있는 솔루션 제공.
한계점:
제안된 방법의 효과는 특정 LLM (LLaMA2-70B)과 하드웨어 환경(8개의 GPU)에 대한 실험 결과에 기반. 다른 모델 및 환경에서의 일반화 가능성에 대한 추가 연구 필요.
정확도 저하를 최소화하기 위한 SPD 전략의 최적화 방안에 대한 추가적인 연구가 필요.
다양한 크기의 LLM에 대한 확장성 및 적용 가능성에 대한 추가적인 평가 필요.
👍