Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TawPipe: Topology-Aware Weight Pipeline Parallelism for Accelerating Long-Context Large Models Training

Created by
  • Haebom
Category
Empty

저자

Houming Wu, Ling Chen

개요

대규모 언어 모델(LLM) 훈련은 제한된 장치 메모리와 비용이 많이 드는 장치 간 통신에 의해 제약받습니다. 파이프라인 병렬화는 활성화를 통신하는 오버헤드가 시퀀스 길이에 따라 선형적으로 증가하여 장치 간 모델을 분할하여 메모리 압력을 완화하지만, 긴 컨텍스트 훈련의 효율성을 제한합니다. 최근의 가중치 전달 방식(예: WeiPipe)은 활성화 대신 모델 가중치를 전송하여 이를 완화하지만, 중복된 P2P 전송 및 노드 내 대역폭 활용 부족의 문제점이 있습니다. 본 논문은 개선된 통신 효율성을 위해 분산 클러스터에서 계층적 대역폭을 활용하는 TawPipe, 즉 토폴로지 인식 가중치 파이프라인 병렬화를 제안합니다. TawPipe는 (i) 토폴로지에 따라 장치를 그룹화하여 노드 내 집단 통신 및 노드 간 P2P 통신을 최적화하고, (ii) 각 장치에 고정된 모델 가중치 및 그래디언트 샤드를 할당하여 중복된 전송을 방지하며, (iii) 계산과 통신을 중첩하여 대기 시간을 숨깁니다. TawPipe는 FSDP에서 사용되는 글로벌 집단 연산과 달리, 대부분의 통신을 노드 경계 내로 제한하여 노드 간 트래픽을 크게 줄입니다. LLaMA 스타일 모델을 사용하여 최대 24개의 GPU에서 수행된 광범위한 실험을 통해 TawPipe가 최첨단 기반선보다 뛰어난 처리량과 확장성을 달성함을 보여줍니다.

시사점, 한계점

시사점:
TawPipe는 분산 클러스터의 계층적 대역폭을 활용하여 통신 효율성을 향상시킵니다.
토폴로지 기반 장치 그룹화, 고정된 가중치/그래디언트 샤드 할당, 계산-통신 중첩을 통해 성능을 개선합니다.
노드 내 통신을 우선시하여 노드 간 트래픽을 줄여 확장성을 향상시킵니다.
LLaMA 스타일 모델을 사용한 실험에서 SOTA 대비 우수한 처리량 및 확장성을 보였습니다.
한계점:
WeiPipe와 같은 다른 가중치 전달 방식과의 비교 외에, 기존 파이프라인 병렬화 방식과의 구체적인 성능 비교가 더 필요합니다.
다양한 모델 아키텍처 및 클러스터 토폴로지에 대한 실험 결과가 부족합니다.
실제 대규모 클러스터 환경에서의 테스트 결과가 제시되지 않았습니다.
👍