GMoE: Empowering LLMs Fine-Tuning via MoE Graph Collaboration
Created by
Haebom
저자
Ting Bai, Yue Yu, Le Huang, Zenan Xu, Zhe Zhao, Chuan Shi
개요
본 논문은 대규모 언어 모델(LLM)의 스파스 믹스처 오브 익스퍼츠(MoE) 구조에서 발생하는 부하 불균형 문제를 해결하기 위해 그래프 기반 MoE 프레임워크인 GMoE를 제안합니다. 기존의 선형 라우터 전략의 단순성으로 인해 발생하는 불안정성과 비효율적인 학습 문제를 해결하기 위해, GMoE는 전문가 간의 협업 신호를 포착하는 그래프 라우터 기능을 설계하여 모든 전문가가 이웃 전문가와 정보를 공유함으로써 입력 데이터에서 파생된 정보를 동적으로 할당할 수 있도록 합니다. 또한, 각 전문가의 용량을 더욱 확장하고 LLM 미세 조정의 안정성을 높이기 위해 포아송 분포 기반 구별 전략과 정규 분포 기반 균형 전략이라는 두 가지 조정 전략을 제시합니다. 저자는 매개변수 효율적인 미세 조정 기술인 저랭크 적응(LoRA)을 활용하여 그래프 MoE 아키텍처를 구현했습니다. 네 개의 실제 벤치마크 데이터셋에 대한 광범위한 실험을 통해 GMoE의 효과를 보여주고 LLM 미세 조정에서 여러 전문가의 협업을 용이하게 하는 이점을 입증합니다.
시사점, 한계점
•
시사점:
◦
LLM의 스파스 MoE 구조에서 발생하는 부하 불균형 문제를 효과적으로 해결하는 새로운 GMoE 프레임워크 제시.