본 논문은 지속적 학습(Continual Learning, CL) 환경에서 대규모 언어 모델(LLM)의 재학습 비용을 줄이기 위한 새로운 프레임워크인 Recurrent-KIF를 제안합니다. Recurrent-KIF는 매개변수 중요도의 동적 추정을 통해 지식 전달을 향상시키는 재귀적 지식 식별 및 융합(Recurrent Knowledge Identification and Fusion) 프레임워크입니다. 기존의 정적 중요도 추정에 기반한 앙상블 및 모델 병합 방법의 한계를 극복하기 위해, 내부 루프(새로운 작업에 대한 빠른 적응 및 중요 매개변수 식별)와 외부 루프(중복 지식 제거 및 핵심 지식 병합을 통한 새로운 지식과 기존 지식의 전역적 관리)를 활용하여 반복적인 융합을 수행합니다. 이를 통해 진화하는 중요도 분포에 따라 융합 전략을 적응적으로 조정하고, 중간 학습 정보를 활용하여 급격한 망각을 완화하고 지식 전달을 향상시킵니다. 다양한 크기의 모델(7억 7천만에서 130억 매개변수)을 사용한 실험 결과, Recurrent-KIF의 효과를 확인했습니다.
시사점, 한계점
•
시사점:
◦
기존의 정적 중요도 추정 방식의 한계를 극복하여 지속적 학습 환경에서 대규모 언어 모델의 성능 향상 가능성을 제시.