JumpLoRA: Sparse Adapters for Continual Learning in Large Language Models

Created by

Haebom

저자

Alexandra Dragomir, Ioana Pintilie, Antonio Barbalau, Marius Dragoi, Florin Brad, Cristian Daniel Paduraru, Alexandru Tifrea, Elena Burceanu, Radu Tudor Ionescu

💡 개요

본 논문은 대규모 언어 모델(LLM)의 지속 학습(CL)을 위한 효율적인 방법으로 어댑터 기반 접근 방식을 제안합니다. 기존 방식의 치명적인 망각을 완화하기 위해, JumpLoRA는 JumpReLU 게이팅을 활용하여 Low-Rank Adaptation(LoRA) 블록에 동적으로 희소성을 유도하여 매개변수 격리를 달성하고 작업 간 간섭을 방지합니다. 실험 결과, JumpLoRA는 IncLoRA의 성능을 크게 향상시키고 선도적인 CL 방법인 ELLA를 능가하는 것으로 나타났습니다.

🔑 시사점 및 한계

•

JumpLoRA는 JumpReLU 게이팅을 통해 LoRA 블록에 동적 희소성을 도입하여 작업 간 간섭을 효과적으로 줄입니다.

•

제안된 방법은 기존 LoRA 기반 CL 방법론과 높은 모듈성과 호환성을 보여주며, 특히 IncLoRA의 성능을 크게 향상시킵니다.

•

향후 연구는 JumpLoRA의 희소성 유도 메커니즘을 더욱 최적화하고 다양한 LLM 아키텍처 및 CL 시나리오에서의 일반화 성능을 탐색할 필요가 있습니다.

PDF 보기

Made with Slashpage