Sign In

M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Rishabh Maheshwary, Vikas Yadav, Hoang Nguyen, Khyati Mahajan, Sathwik Tejaswi Madhusudhan

개요

본 논문은 다양한 언어와 작업에 걸쳐 대규모 언어 모델(LLM)을 정렬하기 위해 새로운 다국어, 다회차 지시 미세조정(IFT) 데이터셋인 M2Lingual을 제안합니다. M2Lingual은 다양한 시드 예시를 선택하고 제안된 Evol 분류 체계를 사용하여 이러한 시드를 복잡하고 어려운 다회차 지시로 변환하여 완전히 합성적으로 구축되었습니다. 182,000개의 IFT 쌍을 포함하며 70개 언어와 17개 이상의 NLP 작업을 다룹니다. 본 논문은 다양한 크기의 LLM을 훈련하여 M2Lingual의 효과를 보여주고, 2단계 Evol 분류 체계와 생성 코드, 그리고 M2Lingual 데이터셋을 공개합니다.

시사점, 한계점

시사점:
다국어 및 다양한 NLP 작업을 지원하는 대규모의 합성 IFT 데이터셋 M2Lingual을 제공합니다.
Evol 분류 체계를 통해 복잡하고 어려운 다회차 지시를 생성하는 새로운 방법을 제시합니다.
다양한 크기의 LLM에서 M2Lingual의 효과를 실험적으로 검증합니다.
저자원 언어의 LLM 성능 향상에 기여할 수 있습니다.
다국어 LLM 개발에 유용한 리소스를 제공합니다.
한계점:
완전히 합성 데이터셋이기 때문에 실제 데이터의 다양성과 복잡성을 완전히 반영하지 못할 수 있습니다.
Evol 분류 체계의 일반화 가능성에 대한 추가적인 연구가 필요합니다.
특정 언어나 작업에 대한 편향이 존재할 가능성이 있습니다.
합성 데이터의 품질에 대한 평가가 필요합니다.
👍