본 논문은 장문맥락을 효율적으로 처리하는 대규모 언어 모델(LLM)을 훈련하기 위한 새로운 방법인 완전 파이프라인 분산 트랜스포머(FPDT)를 제안합니다. 기존의 장문맥락 LLM 훈련 방법은 막대한 GPU 자원과 메모리를 필요로 하지만, FPDT는 기존 최첨단 솔루션과 비교하여 동일한 하드웨어에서 훈련 가능한 시퀀스 길이를 16배 증가시킵니다. 특히, 4개의 GPU만으로 200만 시퀀스 길이를 가진 80억 매개변수 LLM을 훈련할 수 있으며, MFU(Memory Footprint Utilization)는 55% 이상을 유지합니다. FPDT는 기존의 훈련 기법에 구애받지 않고 다양한 LLM 모델에 효율적으로 적용될 수 있습니다.