Sign In

Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading

Created by
  • Haebom
Category
Empty

μ €μž

Avinash Maurya, Jie Ye, M. Mustafa Rafique, Franck Cappello, Bogdan Nicolae

πŸ’‘ κ°œμš”

트랜슀포머 및 LLM λͺ¨λΈμ˜ κΈ‰κ²©ν•œ 크기 μ¦κ°€λ‘œ 인해 GPU λ©”λͺ¨λ¦¬ λΆ€μ‘± λ¬Έμ œκ°€ λ°œμƒν•©λ‹ˆλ‹€. λ³Έ 논문은 GPU λ©”λͺ¨λ¦¬ ν™œμš©λ₯  변동을 ν™œμš©ν•˜μ—¬ μ˜΅ν‹°λ§ˆμ΄μ € μƒνƒœμ˜ 일뢀λ₯Ό ν˜ΈμŠ€νŠΈμ™€ GPU λ©”λͺ¨λ¦¬ 간에 λ™μ μœΌλ‘œ μ΄λ™μ‹œν‚€λŠ” Deep Optimizer States 기법을 μ œμ•ˆν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 데이터 이동과 계산 κ°„μ˜ 쀑첩을 μ΅œμ ν™”ν•˜κ³ , GPU와 CPU의 μ»΄ν“¨νŒ… λŠ₯λ ₯을 λ™μ‹œμ— ν™œμš©ν•˜μ—¬ ν›ˆλ ¨ 속도λ₯Ό ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λŒ€κ·œλͺ¨ 트랜슀포머 λͺ¨λΈ ν›ˆλ ¨ μ‹œ λ°œμƒν•˜λŠ” λ©”λͺ¨λ¦¬ 병λͺ© ν˜„μƒμ„ ν•΄κ²°ν•˜κΈ° μœ„ν•œ 효과적인 동적 μ˜΅ν‹°λ§ˆμ΄μ € μƒνƒœ 관리 방법을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
GPU와 CPU의 μžμ›μ„ 효율적으둜 ν™œμš©ν•˜μ—¬ ν›ˆλ ¨ 속도λ₯Ό 2.5λ°° ν–₯μƒμ‹œν‚€λŠ” μ„±κ³Όλ₯Ό λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ μ„±λŠ₯ λͺ¨λΈμ΄ 데이터 이동 λΉ„μš©, GPU/CPU 가속 효과, 곡유 μžμ› 경쟁 κ°„μ˜ λ³΅μž‘ν•œ νŠΈλ ˆμ΄λ“œμ˜€ν”„λ₯Ό κ³ λ €ν•˜μ§€λ§Œ, μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ λ³΅μž‘μ„±μ΄λ‚˜ λ‹€μ–‘ν•œ ν•˜λ“œμ›¨μ–΄ ꡬ성에 λŒ€ν•œ μΌλ°˜ν™” κ°€λŠ₯성은 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘