Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation

Created by
  • Haebom

저자

Yurun Song, Junchen Zhao, Ian G. Harris, Sangeetha Abdu Jyothi

개요

본 논문은 대규모 언어 모델(LLM)의 파라미터 효율성, 적응성 및 강건성을 향상시키는 새로운 미세 조정 기법인 ShareLoRA를 제안합니다. ShareLoRA는 저랭크 가중치 행렬을 여러 레이어에 걸쳐 전략적으로 공유함으로써 표준 LoRA에 비해 44%~96%의 학습 가능한 파라미터 감소와 메모리 오버헤드 감소를 달성합니다. RoBERTa, GPT-2, LLaMA 시리즈 등 다양한 모델에서 분류 및 생성 작업 모두에서 성능 저하 없이 강건성을 유지하며, 제로샷, 퓨샷, 지속적 미세 조정 시나리오에서 LoRA를 능가하여 최대 1.2%의 평균 정확도 향상과 향상된 도메인 일반화를 달성합니다. 지속적 학습 환경에서는 GSM8K에서 1.2%, HumanEval에서 0.6%, MMLU와 MMLU-Pro에서 각각 0.5%의 정확도 향상을 보였습니다. 결과적으로 ShareLoRA는 다양한 모델 규모와 작업에서 고품질 미세 조정과 강력한 일반화 및 지속적인 적응을 지원함을 보여줍니다.

시사점, 한계점

시사점:
LLM 미세 조정에서 파라미터 효율성과 성능을 동시에 향상시키는 새로운 기법 제시.
메모리 오버헤드 감소를 통한 자원 제약 환경에서의 LLM 활용 가능성 증대.
다양한 모델과 작업에서 LoRA보다 우수한 성능과 강건성을 보임.
지속적 학습 환경에서 향상된 성능을 보임.
한계점:
본 논문에서 제시된 실험 결과가 특정 데이터셋과 모델에 국한될 가능성 존재.
ShareLoRA의 성능 향상이 모든 LLM과 작업에 일반화될 수 있는지 추가적인 연구 필요.
ShareLoRA의 하이퍼파라미터 최적화에 대한 자세한 설명 부족.
👍