대규모 언어 모델(LLM)의 급격한 확장은 GPU 메모리 압박을 증가시켰으며, 가상 파이프라인 및 재계산과 같은 훈련 최적화 기법으로 인해 텐서 수명이 단절되고 상당한 메모리 조각화가 발생하여 더욱 악화됩니다. 인기 있는 딥 러닝 프레임워크(PyTorch)의 온라인 GPU 메모리 할당자는 텐서 수명을 고려하지 않아 비효율성을 초래하고 최대 43%의 메모리 낭비와 메모리 부족 오류를 유발합니다. STAlloc은 훈련 작업 부하의 메모리 할당 동작의 공간적 및 시간적 규칙성을 활용하여 조각화를 줄이는 딥 러닝 프레임워크용 GPU 메모리 할당자입니다. STAlloc은 오프라인 계획과 온라인 할당을 결합하여 새로운 패러다임을 제시합니다. 오프라인 계획은 시공간적 규칙성을 활용하여 최적에 가까운 할당 계획을 생성하고, 온라인 할당은 Mixture-of-Experts(MoE)와 같은 복잡하고 동적인 모델을 처리합니다. 플러그형 PyTorch 메모리 할당자로 구축된 STAlloc은 조각화 비율을 조밀하고 MoE 모델 모두에서 평균 85.1% (최대 100%)까지 줄이고, 무시할 수 있는 오버헤드를 보입니다. 이를 통해 더 효율적인 고처리량 훈련 구성을 가능하게 하고 처리량 성능을 최대 32.5% 향상시킵니다.
시사점, 한계점
•
STAlloc은 딥 러닝 프레임워크에서 GPU 메모리 조각화를 효과적으로 줄임
•
오프라인 계획과 온라인 할당을 결합한 새로운 메모리 할당 패러다임을 제시
•
MoE 모델을 포함한 다양한 모델에서 효과를 입증
•
PyTorch 프레임워크에 플러그 앤 플레이 방식으로 통합 가능
•
최대 32.5%의 처리량 성능 향상
•
GPU 메모리 할당에 초점을 맞추어, 다른 훈련 최적화 기법과의 호환성 및 상호 작용에 대한 추가 연구 필요