본 논문은 저자원 언어에 대한 대규모 언어 모델(LLM)의 성능 향상을 위해 다중 언어 병렬 데이터의 활용 가능성을 제시합니다. 기존의 비정렬 다중 언어 데이터를 사용한 사전 학습 및 지시 조정 방식의 한계를 지적하며, TED Talks를 기반으로 113개 언어(최대 50개 언어 병렬 정렬)를 포함하는 대규모 고품질 다중 언어 병렬 말뭉치 TED2025를 소개합니다. TED2025를 활용하여 지속적인 사전 학습, 지시 조정 전략 및 주요 영향 요인 분석을 통해 LLM 성능 향상을 위한 최적 방안을 연구하고, 6가지 다국어 벤치마크 실험을 통해 다중 언어 병렬 데이터 기반 학습 모델이 비정렬 데이터 기반 모델보다 우수한 성능을 보임을 확인합니다.