본 논문은 저자원 언어에 대한 대규모 언어 모델(LLM)의 성능 향상을 위해 다국어 병렬 데이터의 활용에 초점을 맞추고 있습니다. 기존의 비정렬 다국어 데이터를 사용한 사전 학습 및 지시 조정 방식의 한계를 지적하며, 다중 언어 병렬 데이터, 특히 TED Talks를 기반으로 구축된 113개 언어를 포함하는 대규모 고품질 다중 언어 병렬 말뭉치 TED2025를 제시합니다. TED2025를 이용하여 지속적인 사전 학습, 지시 조정 등의 전략을 통해 LLM의 성능 향상을 연구하고, 다중 언어 평가 기준 6개를 통해 다중 언어 병렬 데이터 기반 모델이 비정렬 다국어 데이터 기반 모델보다 우수한 성능을 보임을 실험적으로 증명합니다.