MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
Created by
Haebom
저자
Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho
개요
대규모 언어 모델(LLM)의 생성 품질은 추론 시간 시퀀스 레벨 스케일링 방법(예: Chain-of-Thought)을 사용하여 향상되는 경우가 많습니다. 본 논문에서는 토큰 수준에서 예측 품질을 향상시키는 보완적인 프레임워크인 하이퍼 병렬 스케일링을 소개합니다. 하이퍼 병렬 스케일링은 모델에서 단일 토큰에 대한 여러 출력 제안을 계산하고 집계합니다. 본 연구에서는 이를 Roster of Experts (RoE)라고 하는 Mixture-of-Experts (MoE) 모델에 구현했습니다. RoE는 단일 MoE를 동적 MoE 앙상블로 전환하는, 학습이 필요 없는 추론 알고리즘입니다. RoE는 전문가 라우팅 메커니즘에 제어된 확률적 요소를 주입하여 각 토큰에 대해 여러 다양한 전문가를 샘플링하고 더 정확한 최종 예측을 위해 해당 출력을 집계할 수 있도록 합니다. 계산 비용을 극복하기 위해 효율적인 배치 전략과 compute 및 메모리 오버헤드를 최소화하는 특수 KV 캐싱 메커니즘을 도입했습니다. 예를 들어, RoE를 사용하면 7B MoE 모델이 추론 시 30% 적은 계산량으로 10.5B MoE 모델의 성능에 필적할 수 있습니다. 이러한 이점은 모델 매개변수의 미세 조정 없이 얻을 수 있습니다.
시사점, 한계점
•
시사점:
◦
추론 시 토큰 레벨에서 예측 품질을 향상시키는 새로운 프레임워크인 하이퍼 병렬 스케일링 제시
◦
Mixture-of-Experts (MoE) 모델을 위한 training-free 추론 알고리즘인 Roster of Experts (RoE) 개발