본 논문은 저자원 아프리카 언어에 대한 대규모 언어 모델(LLM)의 적응 방법을 다룹니다. 아프리카 언어의 정제된 데이터와 고품질 영어 교육 텍스트를 결합하여 LLM을 학습시킨 결과, 해당 언어에 대한 모델 성능이 크게 향상됨을 발견했습니다. IrokoBench 데이터셋에서 유사한 크기의 기준 모델들 중 가장 우수한 성능을 달성했으며, 특히 지식 집약적인 객관식 질문(AfriMMLU)에서 두드러지는 성능 향상을 보였습니다. 또한, AfriQA 크로스링구얼 질의응답 벤치마크에서 기준 모델보다 10% 이상 성능이 향상되었습니다. 2억 토큰의 영어 데이터를 스와힐리어로 번역하여 분석한 결과, 해당 데이터의 내용이 우수한 성능에 주요하게 기여함을 밝혔습니다. 연구팀은 향후 아프리카 언어 연구를 장려하기 위해 모델과 데이터를 공개합니다.