Gemma2라는 20억 파라미터의 대규모 언어 모델(LLM)을 리투아니아어로 구성된 CulturaX 데이터셋의 10%를 사용하여 자기회귀적 사전 훈련하는 실험에 대한 기술 보고서입니다. 지속적 학습의 관점에서, 모델의 모든 파라미터에 탄성 가중치 통합(EWC)을 적용하여 Arc, Belebele, Gsm8K, Hellaswag, MMLU, TruthfulQA, Winogrande (영어 및 리투아니아어 버전) 벤치마크와 당황도 벤치마크를 평가했습니다. 실험적으로 EWC 규제가 파국적 망각 효과를 완화할 뿐만 아니라 LLM에서 새로운 작업 학습에 잠재적으로 유익하다는 것을 보여줍니다.