DWDP: Distributed Weight Data Parallelism for High-Performance LLM Inference on NVL72

작성자

Haebom

카테고리

Empty

저자

Wanqian Li, Jintao Peng, Zongfei Jing, Tianyu Zhang, Ze Long, Xianjie Qiao, Xiaoming Chen, Dongxu Yang, Kefeng Duan, June Yang

💡 개요

본 논문은 대규모 언어 모델(LLM) 추론 시 발생하는 다중 GPU 환경에서의 성능 저하 문제를 해결하기 위해 새로운 추론 병렬화 전략인 DWDP(Distributed Weight Data Parallelism)를 제안합니다. DWDP는 계층별 동기화 없이 MoE(Mixture-of-Experts) 가중치를 분산 저장하고 필요할 때 전문가를 불러오는 방식으로 데이터 병렬 실행을 유지합니다. 이를 통해 GPU 간 독립적인 연산을 가능하게 하여, 8.8%의 엔드-투-엔드 출력 TPS/GPU 향상을 달성했습니다.

🔑 시사점 및 한계

•

대규모 언어 모델 추론에서 GPU 간 동기화 오버헤드를 제거하여 성능을 개선할 수 있습니다.

•

MoE 모델의 가중치를 분산하고 필요 시 불러오는 방식은 메모리 제약을 완화하는 데 효과적입니다.

•

제안된 최적화 기법들이 실제 시스템에서의 오버헤드를 줄이는 데 기여합니다.

•

8K 입력 및 1K 출력 시퀀스 길이라는 특정 조건에서의 성능 향상이며, 다양한 시퀀스 길이 및 모델 아키텍처에 대한 추가적인 검증이 필요합니다.

PDF 보기

Made with Slashpage