# A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio

### 저자

Ningyuan Xi, Yetao Wu, Kun Fan, Teng Chen, Qingqing Gu, Luo Ji

### 💡 개요

본 논문은 Llama-3 70B 모델에 추가 언어(중국어)를 효율적으로 학습시키기 위해 추가 언어 혼합 비율(ALMR)과 학습률(LR)의 최적 조합을 탐색했습니다. 8B 모델을 대상으로 한 실험을 통해 최적의 하이퍼파라미터 설정을 도출하고, 이를 70B 모델에 적용하여 중국어 능력뿐만 아니라 수학, 코딩, 감성 지능 등 다양한 분야에서 성능 향상을 달성했습니다. 최종 70B 모델은 실제 대화 시스템에 성공적으로 배포되어 만족스러운 성능을 보였습니다.

### 🔑 시사점 및 한계

- 추가 언어 학습 시 언어 혼합 비율과 학습률의 상호 작용이 모델 성능에 결정적인 영향을 미침을 실험적으로 규명했습니다.

- 소형 모델에서의 실험 결과를 대형 모델에 성공적으로 확장 적용하여, 비용 효율적인 지속 사전 학습(CPT) 전략 수립의 가능성을 보여주었습니다.

- 본 연구는 특정 언어(중국어)에 대한 성능 향상에 초점을 맞추었으나, 다양한 언어 또는 도메인에 대한 ALMR 최적화 연구로 확장될 필요가 있습니다.

[PDF 보기](https://arxiv.org/pdf/2409.06624)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).