Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading

Created by

Haebom

저자

Avinash Maurya, Jie Ye, M. Mustafa Rafique, Franck Cappello, Bogdan Nicolae

💡 개요

트랜스포머 및 LLM 모델의 급격한 크기 증가로 인해 GPU 메모리 부족 문제가 발생합니다. 본 논문은 GPU 메모리 활용률 변동을 활용하여 옵티마이저 상태의 일부를 호스트와 GPU 메모리 간에 동적으로 이동시키는 Deep Optimizer States 기법을 제안합니다. 이를 통해 데이터 이동과 계산 간의 중첩을 최적화하고, GPU와 CPU의 컴퓨팅 능력을 동시에 활용하여 훈련 속도를 향상시킵니다.

🔑 시사점 및 한계

•

대규모 트랜스포머 모델 훈련 시 발생하는 메모리 병목 현상을 해결하기 위한 효과적인 동적 옵티마이저 상태 관리 방법을 제시합니다.

•

GPU와 CPU의 자원을 효율적으로 활용하여 훈련 속도를 2.5배 향상시키는 성과를 보여주었습니다.

•

제안된 성능 모델이 데이터 이동 비용, GPU/CPU 가속 효과, 공유 자원 경쟁 간의 복잡한 트레이드오프를 고려하지만, 실제 환경에서의 복잡성이나 다양한 하드웨어 구성에 대한 일반화 가능성은 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage