Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora

Created by
  • Haebom

저자

Yingli Shen, Wen Lai, Shuo Wang, Kangyang Luo, Alexander Fraser, Maosong Sun

개요

본 논문은 저자원 언어에 대한 대규모 언어 모델(LLM)의 성능 향상을 위해 다중 언어 병렬 데이터의 활용 가능성을 제시합니다. 기존의 비정렬 다중 언어 데이터를 사용한 사전 학습 및 지시 조정 방식의 한계를 지적하며, TED Talks를 기반으로 113개 언어(최대 50개 언어 병렬 정렬)를 포함하는 대규모 고품질 다중 언어 병렬 말뭉치 TED2025를 소개합니다. TED2025를 활용하여 지속적인 사전 학습, 지시 조정 전략 및 주요 영향 요인 분석을 통해 LLM 성능 향상을 위한 최적 방안을 연구하고, 6가지 다국어 벤치마크 실험을 통해 다중 언어 병렬 데이터 기반 학습 모델이 비정렬 데이터 기반 모델보다 우수한 성능을 보임을 확인합니다.

시사점, 한계점

시사점:
다중 언어 병렬 데이터를 활용한 LLM 사전 학습 및 지시 조정의 효과성을 실증적으로 입증.
대규모 고품질 다중 언어 병렬 말뭉치 TED2025 공개를 통한 연구 활성화 기여.
다중 언어 병렬 데이터 활용을 위한 최적의 전략 제시.
저자원 언어에 대한 LLM 성능 향상에 기여.
한계점:
TED Talks 데이터의 특성으로 인한 일반화 가능성에 대한 추가 검증 필요.
다른 유형의 다중 언어 데이터에 대한 확장성 연구 필요.
TED2025 말뭉치의 품질 및 편향성에 대한 심층적인 분석 필요.
특정 언어 쌍에 대한 편향성이나 불균형에 대한 고려가 필요할 수 있음.
👍