Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Zeroth-Order Fine-Tuning of LLMs in Random Subspaces

Created by
  • Haebom

저자

Ziming Yu, Pan Zhou, Sike Wang, Jia Li, Mi Tian, Hua Huang

개요

본 논문은 대규모 언어 모델(LLM)의 미세 조정을 위한 메모리 효율적인 최적화 방법인 SubZero를 제안합니다. 기존의 영차(Zeroth-order) 최적화 방법들은 기울기 추정의 분산이 모델의 차원에 따라 선형적으로 증가하는 문제점을 가지고 있는데, SubZero는 저차원 섭동을 이용하여 이 문제를 해결합니다. SubZero는 메모리 소비를 줄이면서 훈련 성능을 향상시키며, 기존의 영차 최적화 방법들보다 빠른 수렴 속도를 보입니다. 실험 결과를 통해 다양한 언어 모델링 작업에서 SubZero의 우수성을 검증하고, 소스 코드를 공개하였습니다.

시사점, 한계점

시사점:
대규모 언어 모델 미세 조정을 위한 메모리 효율적인 새로운 최적화 기법 제시
기존 영차 최적화 방법들의 한계점인 높은 기울기 추정 분산 문제 해결
향상된 훈련 성능 및 빠른 수렴 속도 달성
실제 언어 모델링 작업에서의 효과 검증 및 소스 코드 공개
한계점:
제시된 방법의 일반적인 LLM 구조 및 크기 이외의 다른 구조나 크기에 대한 일반화 가능성에 대한 추가 연구 필요
다양한 하이퍼파라미터 튜닝 및 최적화에 대한 추가 연구 필요
실험 결과가 특정 데이터셋 및 작업에 국한될 수 있으므로, 더욱 광범위한 실험이 필요함.
👍