Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs

Created by
  • Haebom

저자

Feilong Chen, Yijiang Liu, Yi Huang, Hao Wang, Miren Tian, Ya-Qi Yu, Minghui Liao, Jihao Wu

MindVL: Ascend NPUs 기반의 멀티모달 대규모 언어 모델

개요

본 논문은 Ascend NPUs에서 훈련된 멀티모달 대규모 언어 모델(MLLM)인 MindVL을 제안한다. MindVL은 기존 MLLM 훈련의 제한적인 하드웨어 플랫폼 의존성과 비공개 데이터 레시피 문제를 해결하고자 한다. MindSpeed-MLLM이라는 효율적인 훈련 프레임워크를 통해 Ascend 하드웨어에서 대규모 Dense 및 Mixture-of-Experts (MoE) 모델의 안정적이고 고성능 훈련을 지원한다. 또한, 훈련 데이터 생산 방법과 혼합 전략에 대한 체계적이고 공개적인 설명을 제공한다. MindVL은 Ascend NPUs에서 end-to-end 방식으로 훈련된 데이터 효율적인 MLLM이며, 다양한 시퀀스 길이로 훈련된 체크포인트의 가중치를 평균하는 방식과 테스트 시간 해상도 탐색 기법을 통해 성능을 향상시켰다. MindVL-8B는 Qwen2.5VL-7B의 10% 데이터로 동일한 성능을 달성했으며, MoE 모델인 MindVL-671B-A37B는 Qwen2.5VL-72B의 3% 데이터로 유사한 성능을 보였다.

시사점, 한계점

시사점:
Ascend 하드웨어를 MLLM 훈련의 유효한 대안으로 제시.
오픈 데이터 레시피를 제공하여 연구의 재현성과 개방성을 증진.
체크포인트 가중치 평균 및 테스트 시간 해상도 탐색과 같은 효과적인 성능 향상 기술 제시.
데이터 효율적인 모델 훈련을 통해 적은 데이터로도 경쟁력 있는 성능을 달성.
한계점:
논문에서 구체적인 데이터셋 규모나 모델 아키텍처에 대한 상세 정보가 부족할 수 있음.
다른 최첨단 모델과의 전반적인 비교 및 광범위한 벤치마크 결과가 충분하지 않을 수 있음.
Ascend NPUs에 특화된 훈련 프레임워크이므로 다른 하드웨어 환경에서의 일반화 가능성은 제한적일 수 있음.
모델의 실제 활용 가능성 및 다양한 실제 문제에 대한 적용 사례에 대한 분석이 부족할 수 있음.
👍