Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FZOO: Fast Zeroth-Order Optimizer for Fine-Tuning Large Language Models towards Adam-Scale Speed

Created by
  • Haebom

저자

Sizhe Dang, Yangyang Guo, Yanjun Zhao, Haishan Ye, Xiaodong Zheng, Guang Dai, Ivor Tsang

개요

본 논문은 대규모 언어 모델(LLM) 미세 조정 시 발생하는 GPU 메모리 병목 현상을 해결하기 위한 새로운 제로차(ZO) 최적화 알고리즘인 FZOO를 제안합니다. 기존 ZO 최적화 알고리즘인 MeZO는 수렴에 많은 전방 패스가 필요하지만, FZOO는 배치된 단측 추정과 표준 편차 기반의 단계 크기 적응, Rademacher 랜덤 벡터 섭동 및 CUDA 병렬 처리를 통해 전방 패스 수를 크게 줄입니다. RoBERTa-large, OPT, Phi-2, Llama3 등 다양한 모델과 11가지 작업에 대한 실험 결과, FZOO는 MeZO보다 정확도는 평균 3% 향상시키면서 전방 패스 수는 3배 감소시켰으며, RoBERTa-large에서는 정확도 5.6% 향상과 전방 패스 수 18배 감소를 달성, Adam과 유사한 수렴 속도를 보였습니다. 또한, 정규화된 SGD 업데이트 규칙과의 공식적 등가성 및 수렴 보장을 이론적으로 증명하였으며, PEFT 기법과의 원활한 통합을 통해 더 큰 메모리 절약을 가능하게 합니다.

시사점, 한계점

시사점:
GPU 메모리 제약으로 인해 대규모 언어 모델 미세 조정이 어려운 문제에 대한 효과적인 해결책 제시.
기존 제로차 최적화 알고리즘의 한계(느린 수렴 속도)를 극복하여 Adam과 유사한 수렴 속도를 달성.
단일 GPU를 이용한 고속, 전파라미터 미세 조정의 실현 가능성 제시.
메모리 효율적인 사전 훈련에 대한 새로운 연구 방향 제시.
PEFT 기법과의 통합을 통한 추가적인 메모리 절약 가능성.
한계점:
본 논문에서 제시된 실험 결과가 모든 LLM과 작업에 일반화될 수 있는지에 대한 추가적인 검증 필요.
다른 최적화 알고리즘과의 더욱 포괄적인 비교 연구 필요.
이론적 분석의 추가적인 확장 및 심화 연구 필요.
👍