Sign In

SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Yuxuan Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 파라미터 미세조정(Fine-tuning, FT)에 따른 높은 계산 비용과 catastrophic forgetting 문제를 해결하기 위해, Sigmoid-Enhanced CUR Decomposition LoRA (SECURA)라는 새로운 파라미터 효율적인 미세조정(PEFT) 방법을 제안합니다. SECURA는 기존 LoRA의 한계를 극복하기 위해 Sigmoid-based Magnitude Norm (S-MagNorm)이라는 새로운 정규화 기법을 도입하여 파라미터 유지 및 미세조정 효율을 향상시킵니다. 다양한 과제(GSM8K, CNNDM, NewsDE, LogiQA)에 대한 실험 결과, SECURA는 기존의 DoRA를 능가하며, Gemma2 2B, Qwen2 1.5B, Qwen2 7B, Llama3 8B, Llama3.1 8B 모델에서 평균 3.59% (MCQ 과제) 및 2.51% (QA 과제)의 성능 향상을 보였습니다. 또한, 16개의 지속적 학습 테스트에서 최첨단 성능을 달성하고 기본 지식의 70% 이상을 유지하며 Experience Replay (ER), sequential learning (SEQ), EWC, I-LoRA, CUR-LoRA 등 기존 방법보다 우수한 지식 보존 능력을 보여줍니다.

시사점, 한계점

시사점:
LLM의 미세조정 시 발생하는 계산 비용 및 catastrophic forgetting 문제를 효과적으로 완화하는 새로운 방법 SECURA 제시.
S-MagNorm 정규화 기법을 통해 파라미터 유지 및 미세조정 효율 향상.
다양한 과제에서 기존 방법보다 우수한 성능 및 지식 보존 능력을 입증.
지속적 학습 환경에서의 성능 향상 및 LLM의 기본 지식 유지.
한계점:
SECURA의 성능 향상이 특정 모델 및 과제에 편향될 가능성.
제안된 S-MagNorm 기법의 일반화 가능성에 대한 추가적인 연구 필요.
더욱 광범위한 LLM과 과제에 대한 실험을 통해 SECURA의 일반화 성능 검증 필요.
👍