Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation

Created by
  • Haebom

저자

Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 훈련 시간을 단축하는 분산 훈련 시스템인 Optimus를 제안합니다. 기존 MLLM 훈련 시스템은 이기종 모달 모델과 복잡한 데이터 의존성으로 인해 GPU 병목 현상이 심각하여 비효율적입니다. Optimus는 LLM 버블 내에서 인코더 계산을 스케줄링함으로써 MLLM 훈련의 병목 현상을 줄이는 원칙적인 분석에 기반합니다. 모든 GPU에서 인코더 계산 스케줄링을 가능하게 하기 위해, Optimus는 인코더와 LLM에 대한 별도의 병렬 계획을 검색하고, 버블 스케줄링 알고리즘을 채택하여 MLLM 모델 아키텍처의 원래 데이터 의존성을 깨뜨리지 않고 LLM 버블을 활용합니다. 또한 인코더 계층 계산을 일련의 커널로 분해하고, 3D 병렬 처리의 일반적인 버블 패턴을 분석하여 서브밀리초 버블 스케줄링을 신중하게 최적화하여 전체 훈련 시간을 최소화합니다. 실험 결과, Optimus는 ViT-22B 및 GPT-175B 모델을 사용하여 3072개의 GPU에서 기준 시스템에 비해 MLLM 훈련 속도를 20.5%-21.3% 향상시켰습니다.

시사점, 한계점

시사점:
다중 모달 대규모 언어 모델 훈련의 효율성을 크게 향상시키는 Optimus 시스템을 제시.
LLM 버블 내 인코더 계산 스케줄링을 통한 병목 현상 감소 전략 제시.
3D 병렬 처리의 버블 패턴 분석을 통한 서브밀리초 버블 스케줄링 최적화.
실제 클러스터 환경에서의 실험을 통해 성능 향상을 검증.
한계점:
Optimus 시스템의 성능 향상은 특정 모델(ViT-22B, GPT-175B)과 GPU 환경(3072개 GPU)에 국한될 수 있음.
다른 모델 아키텍처나 다양한 규모의 GPU 환경에서의 일반화 가능성에 대한 추가적인 연구 필요.
제안된 버블 스케줄링 알고리즘의 최적화 가능성에 대한 추가적인 연구 필요.
👍