본 논문은 대규모 언어 모델(LLM) 훈련을 위한 파이프라인 병렬 처리(PP)의 효율성을 높이는 새로운 방법인 SlimPipe를 제안합니다. 기존 PP 방법들은 긴 문맥 시나리오에서 활성화 메모리 압력과 파이프라인 버블 문제로 효율성이 떨어지는데, SlimPipe는 균일한 시퀀스 슬라이싱과 1F1B 스케줄을 사용하여 이러한 문제를 해결합니다. 여러 마이크로 배치의 누적된 활성화를 하나의 마이크로 배치로 줄이고, 이를 여러 슬라이스로 나누어 처리하며, 작업 부하 재분배 기법을 통해 부하 불균형을 해결합니다. 실험 결과, SlimPipe는 메모리 오버헤드를 거의 제거하고 파이프라인 버블을 최소화하여 Llama 70B 모델에서 기존 방법 대비 최대 1.57배의 모델 FLOPs 활용도(MFU) 향상을 보였으며, 2048K 문맥 길이에서도 256개의 NVIDIA Hopper 80GB GPU 상에서 45% 이상의 활용도를 유지했습니다.