Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

Created by
  • Haebom

저자

Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu

개요

본 논문은 다양한 모달리티를 처리하는 데 필요한 이종 모델 아키텍처로 인해 대규모 훈련을 위한 정교한 시스템 설계가 필요하여 옴니모달 LLM(대규모 언어 모델)의 훈련이 여전히 상당한 과제임을 지적합니다. 기존 프레임워크는 일반적으로 모델 정의와 병렬 로직을 얽어서 확장성이 제한되고 엔드투엔드 옴니모달 훈련에 상당한 엔지니어링 오버헤드가 발생합니다. 이에 본 논문에서는 옴니모달 LLM 개발을 가속화하기 위한 모듈식이고 효율적인 훈련 프레임워크인 VeOmni를 제시합니다. VeOmni는 계산으로부터 통신을 분리하는 모델 중심의 분산 레시피를 도입하여 옴니모달 LLM에서 효율적인 3D 병렬 처리를 가능하게 합니다. 또한 최소한의 코드 변경으로 새로운 모달리티의 원활한 통합을 지원하는 유연한 구성 인터페이스를 특징으로 합니다. VeOmni를 사용하면 30B 매개변수를 가진 옴니모달 전문가 혼합(MoE) 모델을 2,800 토큰/초/GPU 처리량으로 훈련하고 128개의 GPU에서 3D 병렬 처리를 통해 160K 컨텍스트 길이로 확장할 수 있으며, 이는 대규모 옴니모달 LLM 훈련을 위한 우수한 효율성과 확장성을 보여줍니다.

시사점, 한계점

시사점:
옴니모달 LLM 훈련의 효율성과 확장성을 크게 향상시키는 VeOmni 프레임워크 제시.
모델 정의와 통신을 분리하여 3D 병렬 처리를 통한 효율적인 대규모 훈련 가능.
새로운 모달리티 통합을 위한 유연한 구성 인터페이스 제공.
30B 매개변수의 옴니모달 MoE 모델을 128개 GPU에서 효율적으로 훈련 가능함을 실험적으로 증명.
한계점:
VeOmni 프레임워크의 실제 적용 가능성 및 일반화 성능에 대한 추가적인 연구 필요.
다양한 규모의 옴니모달 LLM 및 다양한 하드웨어 환경에서의 성능 평가가 더 필요.
특정 하드웨어 환경(128개 GPU)에 대한 의존성이 존재할 가능성. 다른 환경에서의 일반화 성능 검증 필요.
👍