Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

Created by

Haebom

저자

Kailai Yang, Xiao Liu, Lei Ji, Hao Li, Xiao Liang, Zhiwei Liu, Yeyun Gong, Peng Cheng, Mao Yang

💡 개요

본 논문은 대규모 언어 모델을 새로운 분야에 지속적으로 사전 학습시킬 때 발생하는 치명적인 망각 문제를 해결하기 위한 데이터 믹싱 에이전트(Data Mixing Agent)를 제안합니다. 이 에이전트는 강화 학습을 통해 데이터 믹싱의 최적 비율을 자동으로 학습하며, 이를 통해 원본 모델의 능력과 새로운 분야에서의 성능을 균형 있게 유지합니다. 수학적 추론 및 코드 생성 분야에서의 실험 결과, 제안된 방법은 기존 휴리스틱 기반 방식보다 우수한 성능을 보이며 뛰어난 일반화 능력을 입증했습니다.

🔑 시사점 및 한계

•

기존의 수동적인 데이터 재가중치 방식을 벗어나, 강화 학습 기반의 자동화된 데이터 믹싱 전략을 제시하여 지속적 사전 학습의 효율성을 높였습니다.

•

다양한 분야 및 모델에 대한 뛰어난 일반화 능력을 보여주어, 실제 응용에서의 유연성과 실용성을 입증했습니다.

•

학습된 에이전트의 가중치 결정 방식이 인간의 직관과 잘 부합하며, 더 적은 원본 데이터로도 우수한 모델 성능을 달성할 수 있음을 확인했습니다.

•

강화 학습 환경 구축 및 학습에 필요한 방대한 양의 데이터 믹싱 궤적 및 피드백 데이터 생성이 학습 비용을 증가시킬 수 있습니다.

PDF 보기

Made with Slashpage