본 논문은 다중 모달 대규모 언어 모델(MLLM)의 훈련 시간을 단축하는 분산 훈련 시스템인 Optimus를 제안합니다. 기존 MLLM 훈련 시스템은 이기종 모달 모델과 복잡한 데이터 의존성으로 인해 GPU 병목 현상이 심각하여 비효율적입니다. Optimus는 LLM 버블 내에서 인코더 계산을 스케줄링함으로써 MLLM 훈련의 병목 현상을 줄이는 원칙적인 분석에 기반합니다. 모든 GPU에서 인코더 계산 스케줄링을 가능하게 하기 위해, Optimus는 인코더와 LLM에 대한 별도의 병렬 계획을 검색하고, 버블 스케줄링 알고리즘을 채택하여 MLLM 모델 아키텍처의 원래 데이터 의존성을 깨뜨리지 않고 LLM 버블을 활용합니다. 또한 인코더 계층 계산을 일련의 커널로 분해하고, 3D 병렬 처리의 일반적인 버블 패턴을 분석하여 서브밀리초 버블 스케줄링을 신중하게 최적화하여 전체 훈련 시간을 최소화합니다. 실험 결과, Optimus는 ViT-22B 및 GPT-175B 모델을 사용하여 3072개의 GPU에서 기준 시스템에 비해 MLLM 훈련 속도를 20.5%-21.3% 향상시켰습니다.