본 논문은 다양한 언어와 작업에 걸쳐 대규모 언어 모델(LLM)을 정렬하기 위해 새로운 다국어, 다회차 지시 미세조정(IFT) 데이터셋인 M2Lingual을 제안합니다. M2Lingual은 다양한 시드 예시를 선택하고 제안된 Evol 분류 체계를 사용하여 이러한 시드를 복잡하고 어려운 다회차 지시로 변환하여 완전히 합성적으로 구축되었습니다. 182,000개의 IFT 쌍을 포함하며 70개 언어와 17개 이상의 NLP 작업을 다룹니다. 본 논문은 다양한 크기의 LLM을 훈련하여 M2Lingual의 효과를 보여주고, 2단계 Evol 분류 체계와 생성 코드, 그리고 M2Lingual 데이터셋을 공개합니다.