본 논문은 매일 수백만 명의 사용자가 사용하는 현대 대규모 언어 기반 모델(LLM)을 사용자 또는 작업별로 맞춤화하는 방법을 제안한다. 기존 LLM과 온라인 서비스 시스템을 최대한 활용하기 위해, 사전 훈련된 LLM의 최종 계층 임베딩에 추가적인 트랜스포머 블록 분기를 훈련하는 프레임워크를 제시한다. 이후, 캐리온 모듈을 통해 기본 모델을 병합하여 맞춤형 LLM을 구성한다. 여러 계층 또는 다양한 도메인(채팅, 코딩, 수학 등)에 특화된 여러 LLM을 혼합하여 새로운 작업에 가장 적합한 LLM을 형성할 수 있다. 기본 모델의 매개변수를 업데이트할 필요가 없으므로, 훈련 작업의 대부분을 추론 노드에서 처리하고, 경량의 캐리온만 훈련 노드에서 훈련하여 GPU 메모리 사용량을 줄일 수 있다(예: 30B LLM에 1억 매개변수의 캐리온 계층 훈련 시 1GB 미만). Qwen 및 DeepSeek 오픈소스 모델을 사용하여 지속적 사전 훈련을 수행하여 빠른 손실 수렴을 확인했으며, 극히 적은 계산량과 모델 크기로 수학 문제 해결 성능을 향상시켰다 (1000개의 사고 과정 데이터 샘플, 1MB 미만의 2계층 캐리온 매개변수).