FLUX는 제한된 컴퓨팅 리소스를 가진 참여자들(예: 소비자급 GPU) 간의 MoE 기반 LLM의 연합 미세 조정을 가능하게 하도록 설계된 시스템입니다. 시간-정확도를 최소화하는 것을 목표로 하며, 세 가지 주요 혁신을 도입했습니다. (1) 최소한의 오버헤드로 전문가 활성화를 추정하는 양자화 기반 로컬 프로파일링, (2) 정확도를 유지하면서 리소스 소비를 줄이는 적응형 레이어별 전문가 병합, (3) 튜닝 및 비 튜닝 전문가 간의 균형을 맞추기 위한 탐색-활용 전략을 사용하는 동적 전문가 역할 할당입니다.