PipeOffload: Improving Scalability of Pipeline Parallelism with Memory Optimization
Created by
Haebom
Category
Empty
저자
Xinyi Wan, Penghui Qi, Guangxing Huang, Jialin Li, Min Lin
개요
본 논문은 대규모 언어 모델(LLM) 훈련에 널리 사용되는 파이프라인 병렬 처리(PP)의 확장성을 제한하는 높은 활성화 메모리 소비 문제를 해결하는 데 초점을 맞추고 있습니다. 기존의 파이프라인 병렬 처리에서 활용되지 않던 메모리 오프로드 전략을 활용하여, 대부분의 표준 구성에서 활성화의 최소 절반 이상, 잠재적으로는 모든 활성화를 무시할 수 있는 오버헤드로 오프로드할 수 있음을 실험적으로 밝혔습니다. 전체 오프로드가 불가능한 경우에는 최첨단 선택적 오프로드 전략을 도입하여 최대 활성화 메모리를 선형보다 더 나은 방식으로 감소시킵니다. 또한, 메모리 오프로드를 다른 기법과 통합하여 전체 처리량과 메모리 제한을 공동으로 고려합니다. 실험 결과, 장치당 활성화 메모리가 스테이지 수에 따라 효과적으로 감소하여 PP가 TP보다 우수한 대안임을 증명하며, 최대 19%의 가속화와 더 낮은 메모리 소비를 달성했습니다. 구현은 공개 소스로 제공됩니다 (https://github.com/sail-sg/zero-bubble-pipeline-parallelism).