T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning
Created by
Haebom
저자
Rongyu Zhang, Yijiang Liu, Huanrui Yang, Shenli Zheng, Dan Wang, Yuan Du, Li Du, Shanghang Zhang
개요
본 논문은 다양한 다중 작업 미세 조정에서 대규모 언어 모델(LLM)의 적응 문제를 해결하기 위해, 혼합 전문가(MoE) 구조를 개선한 새로운 프레임워크인 mix\underline{\textbf{T}}ure\underline{\textbf{-}}of-\underline{\textbf{R}}ank-on\underline{\textbf{E}}-e\underline{\textbf{X}}perts (\texttt{T-REX})를 제안한다. T-REX는 초저 계수 전문가들의 조합을 활용하여 사전 훈련된 LLM에 LoRA 가중치를 구성하며, 계수 1 전문가를 통해 선형적 매개변수 오버헤드로 전문가의 벡터 부분 공간을 2차적으로 확장하여 효율적인 근사 오차 감소를 달성한다. 또한, 훈련 임베딩의 고유한 의미 클러스터링을 사전 지식으로 활용하여 라우터에 암시적 지침을 제공함으로써 전문가 간의 최적화된 특징 할당을 가능하게 하여 원활한 수렴을 지원한다. 다양한 작업에서 우수한 효율성과 일반화 성능을 보이며, 기존 LoRA 기반 방법에 비해 최대 1.78%의 평균 정확도 향상과 30~40%의 훈련 가능한 매개변수 감소를 14개의 공개 데이터셋에서 달성하였다.
시사점, 한계점
•
시사점:
◦
초저 계수 전문가 기반의 효율적인 MoE 구조를 제시하여 LLM의 다중 작업 미세 조정 효율을 향상시켰다.
◦
선형적 매개변수 오버헤드로 2차적인 벡터 부분 공간 확장을 통해 근사 오차를 효율적으로 감소시켰다.
◦
임베딩의 의미 클러스터링을 활용한 암시적 라우팅 지침으로 전문가 간 특징 할당을 최적화하고 수렴 속도를 향상시켰다.
◦
기존 LoRA 기반 방법 대비 높은 정확도 향상과 매개변수 감소 효과를 실험적으로 검증하였다.
•
한계점:
◦
제안된 방법의 효율성 및 일반화 성능은 특정 데이터셋과 작업에 의존적일 수 있다. 더 광범위한 실험이 필요하다.
◦
라우팅 메커니즘의 최적화에 대한 추가적인 연구가 필요할 수 있다.
◦
초저 계수 전문가의 수와 차원에 대한 최적 값을 결정하는 방법에 대한 추가 연구가 필요하다.