Sign In

Harmony in Divergence: Towards Fast, Accurate, and Memory-efficient Zeroth-order LLM Fine-tuning

Created by
  • Haebom
Category
Empty

저자

Qitao Tan, Jun Liu, Zheng Zhan, Caiwei Ding, Yanzhi Wang, Xiaolong Ma, Jaewoo Lee, Jin Lu, Geng Yuan

개요

대규모 언어 모델(LLM)은 다양한 작업에서 뛰어나지만, 기존의 1차(FO) 미세 조정은 상당한 메모리를 필요로 하여 실제 배포에 제약이 많다. 메모리 효율적인 훈련 방법으로 0차(ZO) 최적화가 부상했지만, 수렴 속도와 정확도 면에서 FO 방법에 뒤쳐진다. 본 논문에서는 FO와 ZO 최적화의 차이를 밝히는 층별 발산 분석을 통해 이를 개선하고자 한다. 이러한 분석 결과를 바탕으로, 발산 기반 0차(DiZO) 최적화를 제안한다. DiZO는 ZO 업데이트에 투영을 통합하여 발산 기반 층별 적응을 수행하여 층별 개별 최적화 요구 사항에 정확하게 맞춘 다양한 크기의 업데이트를 생성한다. DiZO는 수렴에 필요한 반복 횟수를 크게 줄이면서 처리량을 유지하여 다양한 데이터 세트에서 훈련 GPU 시간을 최대 48%까지 줄인다. 또한, DiZO는 다운스트림 작업에서 RoBERTa-large, OPT 시리즈 및 Llama 시리즈를 미세 조정하는 데 있어 대표적인 ZO 기준선을 지속적으로 능가하며, 경우에 따라 메모리 집약적인 FO 미세 조정을 능가하기도 한다.

시사점, 한계점

시사점:
메모리 효율적인 0차 최적화 방법인 DiZO를 제안하여 FO 방법과 유사한 성능을 달성.
훈련 GPU 시간을 최대 48%까지 절감.
다양한 LLM (RoBERTa-large, OPT, Llama) 및 데이터셋에 대해 좋은 성능을 보임.
경우에 따라 메모리 집약적인 FO 미세 조정을 능가하는 성능을 보임.
한계점:
제시된 한계점은 논문에 직접적으로 언급되지 않았음.
👍