Sign In

OLMoE: Open Mixture-of-Experts Language Models

Created by
  • Haebom
Category
Empty

저자

Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi

개요

OLMoE는 희소 Mixture-of-Experts (MoE)를 활용한 최첨단의 완전 오픈 소스 언어 모델입니다. OLMoE-1B-7B는 70억 개의 파라미터를 가지지만, 입력 토큰당 10억 개의 파라미터만 사용합니다. 5조 개의 토큰으로 사전 훈련되었으며, OLMoE-1B-7B-Instruct를 생성하기 위해 추가적인 적응 학습을 거쳤습니다. 본 모델은 유사한 활성 파라미터를 가진 모든 기존 모델들을 능가하며, Llama2-13B-Chat 및 DeepSeekMoE-16B와 같은 더 큰 모델들보다도 성능이 우수합니다. MoE 훈련에 대한 다양한 실험과 모델 내 라우팅 분석을 통해 높은 전문화를 보여주며, 모델 가중치, 훈련 데이터, 코드 및 로그를 포함한 모든 측면을 오픈 소스로 공개합니다.

시사점, 한계점

시사점:
희소 MoE를 활용하여 파라미터 효율성을 크게 향상시킨 최첨단 언어 모델 제시.
기존 대규모 모델들을 능가하는 성능 달성.
모델 가중치, 훈련 데이터, 코드 및 로그를 모두 공개하여 연구의 재현성 및 투명성 확보.
MoE 훈련 및 라우팅 전략에 대한 심층적인 분석 제공.
한계점:
본 논문에서는 명시적으로 언급된 한계점이 없습니다. 향후 연구를 통해 탐구될 수 있는 부분으로는 다양한 downstream task에 대한 일반화 성능, MoE 구조의 확장성 및 잠재적인 계산 비용 증가 등이 있습니다.
👍