Sign In

Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

Created by
  • Haebom
Category
Empty

저자

Yiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang

개요

본 논문은 다국어를 지원하는 오픈소스 대규모 언어 모델(LLM)인 Babel을 소개합니다. 기존의 오픈소스 다국어 LLM들은 언어 지원 범위가 제한적이고 주로 자원이 풍부한 언어에 집중하는 경향이 있었던 반면, Babel은 인구수 기준 상위 25개 언어를 포함하여 전 세계 인구의 90% 이상을 지원하며, 다른 모델들이 소홀히 했던 많은 언어들을 포함합니다. 기존의 지속적 사전 학습 방식과 달리, Babel은 계층 확장 기법을 통해 매개변수 수를 늘려 성능을 향상시켰습니다. 효율적인 추론과 미세 조정을 위해 설계된 Babel-9B와 오픈소스 다국어 LLM의 새로운 기준을 제시하는 Babel-83B의 두 가지 변형 모델을 제공하며, 다국어 작업에 대한 광범위한 평가를 통해 동일한 크기의 다른 오픈소스 LLM보다 우수한 성능을 보임을 입증합니다. 또한, 오픈소스 지도 학습 미세 조정 데이터셋을 사용하여 Babel-9B-Chat은 10B 크기의 LLM 중 최고 성능을, Babel-83B-Chat은 상용 모델 수준의 성능을 달성하여 다국어 작업에서 새로운 기준을 세웠습니다.

시사점, 한계점

시사점:
오픈소스 다국어 LLM의 언어 지원 범위를 획기적으로 확장 (상위 25개 언어, 전 세계 인구의 90% 이상 지원).
계층 확장 기법을 통해 매개변수 증가 및 성능 향상을 효과적으로 달성.
Babel-9B 및 Babel-83B 모델 모두 동등 크기의 다른 오픈소스 LLM에 비해 우수한 성능을 입증.
오픈소스 미세 조정 데이터셋을 활용하여 상용 모델 수준의 성능 달성 (Babel-83B-Chat).
10B 크기 LLM 중 최고 성능 달성 (Babel-9B-Chat).
한계점:
논문에서 구체적인 한계점이나 향후 연구 방향에 대한 언급이 부족함.
특정 언어에 대한 성능 편차나 데이터 품질에 따른 성능 차이에 대한 분석이 부족할 수 있음.
계층 확장 기법의 일반화 가능성 및 다른 LLM 아키텍처에 대한 적용 가능성에 대한 추가 연구가 필요할 수 있음.
👍