Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models

Created by
  • Haebom

저자

Fanxu Meng, Zhaohui Wang, Muhan Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 매개변수 효율적인 미세 조정(PEFT)을 위한 새로운 방법인 PiSSA(Principal Singular values and Singular vectors Adaptation)를 제안합니다. 기존의 LoRA(Low-Rank Adaptation) 방법은 모델 변화를 두 개의 작은 행렬의 곱으로 근사하는데, 초기값으로 잡음과 0으로 채워진 행렬을 사용하여 수렴 속도가 느린 단점이 있습니다. PiSSA는 LoRA와 동일한 구조를 가지지만, 초기값으로 원래 행렬의 주성분을 사용하고 나머지 성분은 고정된 상태로 미세 조정을 수행합니다. 이를 통해 더 빠른 수렴과 향상된 성능을 달성합니다. 12개의 다양한 모델(1억 8400만~700억 매개변수)과 5개의 NLG, 8개의 NLU 작업에 대한 비교 실험 결과, PiSSA가 LoRA보다 일관되게 우수한 성능을 보였습니다. 특히 GSM8K 벤치마크에서 Mistral-7B 모델을 PiSSA로 미세 조정했을 때 정확도가 72.86%로 LoRA의 67.7%보다 5.16% 향상되었습니다. 또한, PiSSA는 양자화와도 호환되어 메모리 요구 사항을 더욱 줄일 수 있으며, QLoRA보다 초기 단계에서 양자화 오류가 더 작습니다. 빠른 SVD 기법을 활용하여 PiSSA의 초기화 시간은 몇 초에 불과합니다.

시사점, 한계점

시사점:
LoRA의 수렴 속도 문제를 해결하여 더 빠르고 효율적인 LLM 미세 조정을 가능하게 함.
다양한 모델과 작업에서 LoRA보다 우수한 성능을 보임.
양자화와의 호환성을 통해 메모리 효율성 증대.
빠른 SVD 기법을 통한 빠른 초기화 시간.
한계점:
본 논문에서 제시된 실험 결과의 일반화 가능성에 대한 추가적인 연구 필요.
다른 PEFT 방법들과의 더욱 포괄적인 비교 분석 필요.
특정 작업 또는 모델에 대한 최적의 하이퍼파라미터 설정에 대한 추가적인 연구 필요.
👍