대규모 언어 모델(LLM) 훈련은 제한된 장치 메모리와 비용이 많이 드는 장치 간 통신에 의해 제약받습니다. 파이프라인 병렬화는 활성화를 통신하는 오버헤드가 시퀀스 길이에 따라 선형적으로 증가하여 장치 간 모델을 분할하여 메모리 압력을 완화하지만, 긴 컨텍스트 훈련의 효율성을 제한합니다. 최근의 가중치 전달 방식(예: WeiPipe)은 활성화 대신 모델 가중치를 전송하여 이를 완화하지만, 중복된 P2P 전송 및 노드 내 대역폭 활용 부족의 문제점이 있습니다. 본 논문은 개선된 통신 효율성을 위해 분산 클러스터에서 계층적 대역폭을 활용하는 TawPipe, 즉 토폴로지 인식 가중치 파이프라인 병렬화를 제안합니다. TawPipe는 (i) 토폴로지에 따라 장치를 그룹화하여 노드 내 집단 통신 및 노드 간 P2P 통신을 최적화하고, (ii) 각 장치에 고정된 모델 가중치 및 그래디언트 샤드를 할당하여 중복된 전송을 방지하며, (iii) 계산과 통신을 중첩하여 대기 시간을 숨깁니다. TawPipe는 FSDP에서 사용되는 글로벌 집단 연산과 달리, 대부분의 통신을 노드 경계 내로 제한하여 노드 간 트래픽을 크게 줄입니다. LLaMA 스타일 모델을 사용하여 최대 24개의 GPU에서 수행된 광범위한 실험을 통해 TawPipe가 최첨단 기반선보다 뛰어난 처리량과 확장성을 달성함을 보여줍니다.