Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Exploiting Block Coordinate Descent for Cost-Effective LLM Model Training

Created by
  • Haebom

저자

Zeyu Liu, Yan Li, Yunquan Zhang, Boyang Zhang, Guoyong Jiang, Xin Zhang, Limin Xiao, Weifeng Zhang, Daning Cheng

효율적인 대규모 언어 모델 훈련을 위한 블록 좌표 하강 기반 프레임워크

개요

본 논문에서는 GPU 메모리 및 재정적 투자 요구로 인해 대규모 언어 모델 훈련에 어려움을 겪는 중소 규모 팀을 위해 블록 좌표 하강 (BCD) 기반의 전 매개변수 사전 훈련 및 미세 조정 프레임워크를 제안합니다. 이 프레임워크는 엔지니어링 최적화를 통해 RTX 4090, A100, A800 GPU 클러스터에서 대규모 모델을 효율적으로 훈련할 수 있도록 설계되었습니다. 표준 전 매개변수 훈련 방식과 비교하여, 동일한 하드웨어 환경에서 7B 모델의 훈련 비용을 A100/A800에서는 33%로, RTX 4090에서는 2.6%로 감소시켰습니다. 또한, 이 방법은 A100 클러스터에서만 훈련 가능했던 대규모 모델을 성능 저하 없이 RTX 4090에서 훈련할 수 있게 합니다. BCD는 대부분의 경우 전 매개변수 및 미세 조정 방법과 유사하거나 더 나은 정확도를 달성하면서 GPU 사용량 감소 및 하드웨어 활용도 향상을 보였습니다.

시사점, 한계점

시사점:
비용 효율적인 GPU (RTX 4090)를 활용하여 대규모 언어 모델 훈련 비용 대폭 절감.
성능 저하 없이 A100에서만 훈련 가능했던 모델을 RTX 4090에서 훈련 가능.
전 매개변수 훈련 방식에 비해 GPU 사용량 감소 및 하드웨어 활용도 향상.
한계점:
구체적인 성능 비교 지표 및 정확도 개선 정도에 대한 상세 정보 부족.
BCD 프레임워크의 확장성 및 다양한 모델 아키텍처 적용 가능성에 대한 정보 부족.
실제 적용 사례 및 환경에 따른 성능 변화에 대한 추가 연구 필요.
👍