Sign In

DWDP: Distributed Weight Data Parallelism for High-Performance LLM Inference on NVL72

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Wanqian Li, Jintao Peng, Zongfei Jing, Tianyu Zhang, Ze Long, Xianjie Qiao, Xiaoming Chen, Dongxu Yang, Kefeng Duan, June Yang

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) μΆ”λ‘  μ‹œ λ°œμƒν•˜λŠ” 닀쀑 GPU ν™˜κ²½μ—μ„œμ˜ μ„±λŠ₯ μ €ν•˜ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μƒˆλ‘œμš΄ μΆ”λ‘  병렬화 μ „λž΅μΈ DWDP(Distributed Weight Data Parallelism)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. DWDPλŠ” 계측별 동기화 없이 MoE(Mixture-of-Experts) κ°€μ€‘μΉ˜λ₯Ό λΆ„μ‚° μ €μž₯ν•˜κ³  ν•„μš”ν•  λ•Œ μ „λ¬Έκ°€λ₯Ό λΆˆλŸ¬μ˜€λŠ” λ°©μ‹μœΌλ‘œ 데이터 병렬 싀행을 μœ μ§€ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 GPU κ°„ 독립적인 연산을 κ°€λŠ₯ν•˜κ²Œ ν•˜μ—¬, 8.8%의 μ—”λ“œ-투-μ—”λ“œ 좜λ ₯ TPS/GPU ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ μΆ”λ‘ μ—μ„œ GPU κ°„ 동기화 μ˜€λ²„ν—€λ“œλ₯Ό μ œκ±°ν•˜μ—¬ μ„±λŠ₯을 κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
MoE λͺ¨λΈμ˜ κ°€μ€‘μΉ˜λ₯Ό λΆ„μ‚°ν•˜κ³  ν•„μš” μ‹œ λΆˆλŸ¬μ˜€λŠ” 방식은 λ©”λͺ¨λ¦¬ μ œμ•½μ„ μ™„ν™”ν•˜λŠ” 데 νš¨κ³Όμ μž…λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ μ΅œμ ν™” 기법듀이 μ‹€μ œ μ‹œμŠ€ν…œμ—μ„œμ˜ μ˜€λ²„ν—€λ“œλ₯Ό μ€„μ΄λŠ” 데 κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
8K μž…λ ₯ 및 1K 좜λ ₯ μ‹œν€€μŠ€ κΈΈμ΄λΌλŠ” νŠΉμ • μ‘°κ±΄μ—μ„œμ˜ μ„±λŠ₯ ν–₯상이며, λ‹€μ–‘ν•œ μ‹œν€€μŠ€ 길이 및 λͺ¨λΈ μ•„ν‚€ν…μ²˜μ— λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘