OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training
Created by
Haebom
저자
Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda Liu
개요
본 논문은 GPT-4o와 같은 다중 모달 대규모 언어 모델(MLLM) 훈련 시 발생하는 모달 조합 불일치(Modality Composition Incoherence) 문제를 해결하기 위한 OrchMLLM 프레임워크를 제안합니다. 모달 조합 불일치는 특정 모달의 비율이 예제마다 크게 달라 미니 배치 불균형을 야기하고, 이는 GPU 사용률 저하 및 훈련 효율성 감소로 이어집니다. OrchMLLM은 배치 후 균형 디스패처(Batch Post-Balancing Dispatcher)와 MLLM 글로벌 오케스트레이터(MLLM Global Orchestrator)를 통해 이러한 문제를 해결합니다. 실험 결과, OrchMLLM은 2560개의 H100 GPU를 사용하여 84B MLLM을 훈련할 때 Megatron-LM보다 최대 3.1배 높은 처리량으로 모델 FLOPs 활용률(MFU) 41.6%를 달성했습니다.
시사점, 한계점
•
시사점:
◦
다중 모달 대규모 언어 모델 훈련의 효율성 및 확장성을 크게 향상시키는 OrchMLLM 프레임워크 제시.
◦
미니 배치 불균형 문제를 효과적으로 해결하는 배치 후 균형 디스패처 기법 제안.
◦
다중 모달 데이터를 효율적으로 관리하고 모달 조합 불일치 문제를 해결하는 MLLM 글로벌 오케스트레이터 통합.
◦
실험을 통해 OrchMLLM의 우수한 성능 및 확장성 검증.
•
한계점:
◦
OrchMLLM의 성능은 특정 하드웨어 환경(2560개의 H100 GPU)에서 평가되었으므로, 다른 하드웨어 환경에서의 일반화 가능성에 대한 추가 연구 필요.
◦
다양한 종류의 MLLM과 모달 조합에 대한 추가적인 실험 및 분석 필요.
◦
본 논문에서 제시된 방법이 모든 유형의 모달 조합 불일치 문제에 효과적인지에 대한 추가적인 검증 필요.