Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training
Created by
Haebom
저자
Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda Liu
개요
본 논문은 GPT-4와 같은 다중 모달 대규모 언어 모델(MLLM) 훈련 시 발생하는 모달 조합 불일치(Modality Composition Incoherence) 문제를 해결하기 위한 OrchMLLM 프레임워크를 제안합니다. 모달 조합 불일치는 특정 모달리티의 비율이 예시마다 크게 달라 미니 배치 불균형을 야기하고, 이는 GPU 활용도 저하 및 훈련 효율성 저하로 이어집니다. OrchMLLM은 미니 배치 불균형을 효율적으로 제거하는 배치 후 균형 디스패처(Batch Post-Balancing Dispatcher)와 다중 모달 데이터를 조율하는 MLLM 전역 오케스트레이터(MLLM Global Orchestrator)를 통합하여 이 문제를 해결합니다. 실험 결과, OrchMLLM은 2560개의 H100 GPU를 사용하여 84B MLLM을 훈련할 때 Megatron-LM보다 최대 3.1배 높은 처리량으로 모델 FLOPs 활용률(MFU) 41.6%를 달성했습니다.
시사점, 한계점
•
시사점:
◦
다중 모달 대규모 언어 모델 훈련의 효율성 및 확장성을 크게 향상시키는 OrchMLLM 프레임워크 제시.
◦
모달 조합 불일치 문제에 대한 효과적인 해결책 제시.
◦
대규모 GPU 클러스터를 활용한 MLLM 훈련의 처리량 향상.
◦
향후 MLLM 연구의 발전에 기여.
•
한계점:
◦
OrchMLLM의 성능은 특정 하드웨어(H100 GPU) 환경에서 평가되었으므로 다른 하드웨어 환경에서의 일반화 가능성에 대한 추가 연구 필요.
◦
다양한 종류의 다중 모달 데이터에 대한 OrchMLLM의 적용성 및 일반화 성능에 대한 추가 연구 필요.
◦
본 논문에서 제시된 모달 조합 불일치 문제의 정의 및 측정 방법에 대한 보다 상세한 설명 필요.