본 논문은 거대 언어 모델(LLM) 사전 훈련 중 8비트 가중치 하나를 계산하는 데 $10^{13}$-$10^{15}$ FLOPs가 필요하다는 비효율성을 해결하기 위해, 기존 Mixture-of-Experts(MoE) 모델을 기반으로 효율적인 자식 모델을 선형 시간 내에 생성하는 새로운 "전문가 조립(Assembly-of-Experts, AoE)" 방법을 제시합니다. AoE는 부모 모델의 가중치 텐서를 개별적으로 보간하여 부모 모델의 의미적 특징을 강화하거나 억제할 수 있습니다. 부모 모델 가중치의 비율을 다르게 함으로써, 일부 속성은 점진적으로 변화하는 반면 다른 행동 특성은 급격한 변화를 보이는 것을 관찰하였습니다. 놀랍게도, 생성된 거의 모든 모델이 기능적이며 성능이 우수하여 모델 공간 탐색이 간편해집니다. 본 논문에서는 DeepSeek의 V3-0324와 R1 모델 변형을 결합한 671B 매개변수의 오픈 가중치 하이브리드 모델인 DeepSeek R1T "Chimera"를 구축하여, R1 수준의 지능을 유지하면서 출력 토큰 수는 약 40% 감소하고 V3 속도에 근접하는 성능을 달성했습니다. 미세 조정이나 지식 증류 없이 생성된 Chimera는 부모 모델에 비해 놀라울 정도로 간결하고 질서 정연한 추론 능력을 보여줍니다.