Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2

Created by
  • Haebom

저자

Vytenis \v{S}liogeris, Povilas Daniu\v{s}is, Arturas Nakvosas

개요

Gemma2라는 20억 파라미터의 대규모 언어 모델(LLM)을 리투아니아어로 구성된 CulturaX 데이터셋의 10%를 사용하여 자기회귀적 사전 훈련하는 실험에 대한 기술 보고서입니다. 지속적 학습의 관점에서, 모델의 모든 파라미터에 탄성 가중치 통합(EWC)을 적용하여 Arc, Belebele, Gsm8K, Hellaswag, MMLU, TruthfulQA, Winogrande (영어 및 리투아니아어 버전) 벤치마크와 당황도 벤치마크를 평가했습니다. 실험적으로 EWC 규제가 파국적 망각 효과를 완화할 뿐만 아니라 LLM에서 새로운 작업 학습에 잠재적으로 유익하다는 것을 보여줍니다.

시사점, 한계점

시사점: EWC를 사용하여 LLM의 지속적 학습에서 파국적 망각을 완화하고 새로운 작업 학습 성능을 향상시킬 수 있음을 실험적으로 증명했습니다.
한계점: 특정 데이터셋(CulturaX의 10%)과 LLM(Gemma2)에 대한 결과이므로 일반화 가능성에 대한 추가 연구가 필요합니다. 다양한 크기 및 아키텍처의 LLM과 다른 데이터셋에 대한 실험이 필요합니다. EWC 이외의 다른 지속적 학습 기법과의 비교 분석이 부족합니다.
👍