Sign In

Random Initialization of Gated Sparse Adapters

Created by
  • Haebom
Category
Empty

저자

Vi Retault, Yohai-Eliel Berreby

개요

본 논문은 언어 모델 미세 조정 시 발생하는 재앙적 망각 문제를 해결하기 위한 방법으로, 저랭크 어댑터를 사용하는 LoRA 대신, 희소 어댑터를 사용하는 RIGSA(Random Initialization of Gated Sparse Adapters)를 제안한다. RIGSA는 무작위로 초기화된 풀랭크 어댑터에서 시작하여, ReZero 유사 게이팅을 거쳐 반복적인 magnitude pruning을 통해 희소성을 부여한다. Textual MNIST라는 새로운 vision-in-text task를 사용하여 SmolLM2-1.7B-Instruct 모델에 RIGSA를 적용하고, PIQA, HellaSwag, GSM8k에서 망각 정도를 측정했다. 실험 결과, RIGSA는 Textual MNIST를 학습할 수 있으며, QLoRA보다 GSM8k에서 더 적은 망각을 보였다.

시사점, 한계점

시사점:
RIGSA는 희소 어댑터를 사용하여 재앙적 망각 문제를 완화하는 새로운 접근 방식을 제시한다.
Textual MNIST라는 새로운 vision-in-text task를 제안하여 모델 평가에 활용했다.
QLoRA 및 random masking과 비교하여 RIGSA의 성능을 분석했다.
QLoRA보다 더 많은 파라미터를 사용함에도 불구하고, GSM8k에서 더 적은 망각을 보였다.
한계점:
다른 모델이나 태스크에 대한 일반화 가능성은 추가 연구가 필요하다.
random masking과 비교하여 성능 차이가 크지 않다.
연구된 RIGSA 설정의 최적화에 대한 추가적인 분석이 필요하다.
👍