Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as Pretraining Forgets Less

작성자

Haebom

카테고리

Empty

저자

Yuxing Liu, Jianyu Wang, Tong Zhang

💡 개요

본 연구는 대규모 언어 모델(LLM)의 사전 학습(pretraining)과 미세 조정(finetuning) 과정에서 옵티마이저의 중요성을 강조합니다. 실험 결과, 사전 학습 시 사용했던 것과 동일한 옵티마이저를 사용하여 전체 모델을 미세 조정(full finetuning)할 때, 다른 옵티마이저나 LoRA를 사용할 때보다 새로운 작업에서의 성능은 유지하거나 향상시키면서 사전 학습된 지식의 망각을 줄이는 더 나은 학습-망각 절충(learning-forgetting tradeoff)을 달성한다는 현상을 발견했습니다. 이를 '옵티마이저-모델 일관성(optimizer-model consistency)'이라고 명명합니다.

🔑 시사점 및 한계

•

사전 학습 옵티마이저와 미세 조정 옵티마이저를 일치시키는 것이 모델의 지식 망각을 줄이는 데 효과적입니다.

•

옵티마이저는 모델의 활성화(activations)에 정규화 효과를 주어 사전 학습된 체크포인트 주변의 학습 환경을 변화시키며, 이는 미세 조정 시 최적의 가중치 업데이트 구조에 영향을 미칩니다.

•

Muon 옵티마이저가 특정 작업(추론)에서는 AdamW보다 성능이 저하되는 경향이 있으며, 이는 Muon의 과도한 암기 성향이 적은 데이터로 패턴을 학습하는 데 방해가 될 수 있음을 시사합니다.

•

본 연구는 옵티마이저-모델 일관성의 효과를 보여주지만, 다양한 모델 아키텍처 및 작업에 대한 일반화 가능성과 다른 종류의 미세 조정 방법론과의 비교는 향후 연구 과제로 남습니다.

PDF 보기

Made with Slashpage