본 논문은 대규모 멀티모달 모델의 통합으로 인한 추론 비효율성을 분석하고, 이를 해결하기 위해 Mixture-of-Experts (MoE) 기반의 적응 기법을 제안합니다. 훈련 없이 가지치기를 통해 모델 구성 요소의 압축 가능성을 분석한 결과, 이해 구성 요소는 압축에 강하고 생성 구성 요소는 민감하다는 것을 발견했습니다. 이러한 한계를 극복하기 위해, 생성 모듈을 여러 전문가로 분할하고 희소 활성화를 통해 생성 품질을 복원하는 MoE 적응 기법을 제안했습니다. 이 기법을 통해 전체 모델과 동등한 성능을 유지하면서 절반의 파라미터만 활성화하는 BAGEL 모델을 개발했습니다.