Sign In

Revisiting Multilingual Data Mixtures in Language Model Pretraining

Created by
  • Haebom
Category
Empty

저자

Negar Foroutan, Paul Teiletche, Ayush Kumar Tarun, Antoine Bosselut

개요

본 연구는 대규모 언어 모델(LLM) 사전 훈련에서 다양한 다국어 데이터 혼합의 영향을 조사합니다. 언어 범위와 모델 성능 간의 잠재적 상충 관계에 대한 우려를 해결하기 위해, 연구진은 25개에서 400개 언어까지 다양한 다국어 말뭉치로 11억 및 30억 개의 매개변수를 가진 LLM을 훈련합니다.

시사점, 한계점

영어와 다국어 데이터를 결합해도, 언어별 토큰 수가 충분히 많다면, 어느 그룹의 언어 내 성능도 저하되지 않습니다.
영어를 피벗 언어(다국어 일반화를 촉진하는 고품질 언어)로 사용하면 언어 계열 전반에 걸쳐 이점을 얻을 수 있으며, 특정 계열 내에서 피벗 언어를 선택하는 것이 해당 계열 내 언어의 성능을 일관적으로 향상시키지는 않습니다.
훈련 언어 수가 증가해도, 이 규모의 모델에서는 유의미한 "다국어의 저주"가 관찰되지 않았습니다.
연구는 11억 및 30억 매개변수 LLM에 국한되어, 더 큰 모델에서의 결과는 다를 수 있습니다.
데이터 균형이 성능에 미치는 영향에 대한 더 깊은 연구가 필요합니다.
👍