ByteScale: Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 GPUs
Created by
Haebom
Category
Empty
저자
Hao Ge, Junda Feng, Qi Huang, Fangcheng Fu, Xiaonan Nie, Lei Zuo, Haibin Lin, Bin Cui, Xin Liu
개요
본 논문은 대규모 언어 모델(LLM)의 장문맥 처리 능력 확장을 위한 효율적인 분산 학습 프레임워크인 ByteScale을 제안한다. 기존의 LLM 학습 프레임워크는 데이터 병렬 처리(inter-data partitioning)와 맥락 병렬 처리(intra-data partitioning)를 상호 배타적으로 다루고 정적인 통신 그룹을 사용하여 장치를 정적 메시(예: 2D 메시)로 구성하는데, 이는 다양한 길이의 시퀀스를 처리하는 데 비효율적이다. ByteScale은 데이터에 따라 동적으로 메시를 구성하는 하이브리드 데이터 병렬 처리(HDP) 전략을 통해 이 문제를 해결한다. 짧은 시퀀스의 경우 데이터 인식 분할 및 동적 통신으로 불필요한 통신을 제거하고, 긴 시퀀스의 경우 선택적 오프로딩으로 통신 비용을 압축한다. 또한, 병렬 처리 인식 데이터 할당을 통해 불균형 연산을 완화하는 균형 스케줄러를 개발하였다. 7B141B 파라미터 모델과 256K2048K 맥락 길이에 대해 12,000개 이상의 GPU를 갖춘 프로덕션 클러스터에서 평가한 결과, 최첨단 학습 시스템보다 최대 7.89배 향상된 성능을 보였다.
시사점, 한계점
•
시사점:
◦
대규모 LLM의 장문맥 학습 효율을 획기적으로 향상시키는 새로운 프레임워크를 제시하였다.
◦
데이터 크기와 맥락 길이에 동적으로 적응하는 하이브리드 데이터 병렬 처리 전략을 통해 기존 방식의 한계를 극복하였다.
◦
실제 프로덕션 환경에서의 성능 향상을 실험적으로 검증하였다.
◦
7B에서 141B 파라미터의 다양한 모델 크기와 긴 맥락 길이에 대한 효율성을 입증하였다.
•
한계점:
◦
ByteScale의 구현 및 적용에 필요한 자원(GPU 수, 네트워크 대역폭 등)이 상당히 많을 것으로 예상된다.
◦
다양한 유형의 LLM 아키텍처와 데이터에 대한 일반화 가능성에 대한 추가적인 연구가 필요하다.
◦
특정 하드웨어 환경에 최적화되어 있을 가능성이 있으며, 다른 환경으로의 이식성에 대한 검토가 필요하다.
◦
본 논문에서 제시된 성능 향상이 모든 종류의 LLM 학습 작업에 동일하게 적용될 수 있는지에 대한 추가적인 분석이 필요하다.