본 논문은 대규모 언어 모델(LLM)의 지속적 학습에서 발생하는 치명적인 망각 문제를 해결하기 위해 적응형 특이값 분해(SVD)를 활용한 새로운 지속적 전체 미세 조정 방법을 제안합니다. 기존 방법들의 한계인 낮은 계급(low-rank) 업데이트로 인한 표현력 저하 및 추가 매개변수 발생 문제를 해결하기 위해, 본 논문의 방법은 각 과제별 저계급 매개변수 부분 공간을 동적으로 식별하고, 이전 과제와 관련된 중요 방향에 대해 직교하는 업데이트를 제한함으로써 간섭을 최소화합니다. 추가적인 매개변수 오버헤드나 이전 과제 기울기 저장 없이도 T5-Large 및 LLaMA-2 7B 모델을 사용한 다양한 지속적 학습 벤치마크에서 평가하여 최첨단 성능을 달성했습니다. 특히, 망각을 거의 무시할 수준으로 줄여 모델의 일반적인 언어 능력, 지시 사항 따르기 정확도 및 안전성을 유지합니다.
시사점, 한계점
•
시사점:
◦
적응형 SVD 기반의 지속적 전체 미세 조정 방법은 LLM의 지속적 학습에서 치명적인 망각 문제를 효과적으로 해결합니다.
◦
기존 방법 대비 최대 7% 향상된 평균 정확도를 달성하며, 모델의 일반적인 언어 능력, 지시 사항 따르기 정확도 및 안전성을 유지합니다.
◦
추가 매개변수 없이 확장성 있는 솔루션을 제공합니다.
◦
이론적으로 뒷받침되는 실용적이고 계산적으로 확장 가능한 솔루션을 제공합니다.
•
한계점:
◦
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구가 필요할 수 있습니다. 다양한 LLM 아키텍처와 더욱 광범위한 작업에 대한 추가적인 실험이 필요할 수 있습니다.
◦
매우 큰 모델에 대한 적용 가능성 및 계산 비용에 대한 더 자세한 분석이 필요할 수 있습니다.
◦
적응형 SVD의 매개변수 조정에 대한 최적화 전략에 대한 추가적인 연구가 필요할 수 있습니다.