본 논문에서는 GPU 메모리 및 재정적 투자 요구로 인해 대규모 언어 모델 훈련에 어려움을 겪는 중소 규모 팀을 위해 블록 좌표 하강 (BCD) 기반의 전 매개변수 사전 훈련 및 미세 조정 프레임워크를 제안합니다. 이 프레임워크는 엔지니어링 최적화를 통해 RTX 4090, A100, A800 GPU 클러스터에서 대규모 모델을 효율적으로 훈련할 수 있도록 설계되었습니다. 표준 전 매개변수 훈련 방식과 비교하여, 동일한 하드웨어 환경에서 7B 모델의 훈련 비용을 A100/A800에서는 33%로, RTX 4090에서는 2.6%로 감소시켰습니다. 또한, 이 방법은 A100 클러스터에서만 훈련 가능했던 대규모 모델을 성능 저하 없이 RTX 4090에서 훈련할 수 있게 합니다. BCD는 대부분의 경우 전 매개변수 및 미세 조정 방법과 유사하거나 더 나은 정확도를 달성하면서 GPU 사용량 감소 및 하드웨어 활용도 향상을 보였습니다.
시사점, 한계점
•
시사점:
◦
비용 효율적인 GPU (RTX 4090)를 활용하여 대규모 언어 모델 훈련 비용 대폭 절감.