본 논문은 대규모 언어 모델(LLM)이 영어 외 언어 생성 시 겪는 추론 단계 증가 문제와 그에 따른 사용 비용 증가를 해결하기 위한 연구를 제시한다. 특히, 저자들은 타겟 언어 토큰으로 어휘 확장을 시도하며, 소량의 타겟 언어 데이터(3만 문장, 약 0.01GB)만을 사용하여 어휘 확장 전략을 탐구한다. 임베딩 초기화 방법과 지속적인 사전 훈련 전략을 통해, 저자들은 추론 속도를 향상시키면서도 기존 모델과 경쟁 가능한 성능을 유지하는 방법을 제시한다.