본 논문은 Ascend NPUs에서 훈련된 멀티모달 대규모 언어 모델(MLLM)인 MindVL을 제안한다. MindVL은 기존 MLLM 훈련의 제한적인 하드웨어 플랫폼 의존성과 비공개 데이터 레시피 문제를 해결하고자 한다. MindSpeed-MLLM이라는 효율적인 훈련 프레임워크를 통해 Ascend 하드웨어에서 대규모 Dense 및 Mixture-of-Experts (MoE) 모델의 안정적이고 고성능 훈련을 지원한다. 또한, 훈련 데이터 생산 방법과 혼합 전략에 대한 체계적이고 공개적인 설명을 제공한다. MindVL은 Ascend NPUs에서 end-to-end 방식으로 훈련된 데이터 효율적인 MLLM이며, 다양한 시퀀스 길이로 훈련된 체크포인트의 가중치를 평균하는 방식과 테스트 시간 해상도 탐색 기법을 통해 성능을 향상시켰다. MindVL-8B는 Qwen2.5VL-7B의 10% 데이터로 동일한 성능을 달성했으며, MoE 모델인 MindVL-671B-A37B는 Qwen2.5VL-72B의 3% 데이터로 유사한 성능을 보였다.
시사점, 한계점
•
시사점:
◦
Ascend 하드웨어를 MLLM 훈련의 유효한 대안으로 제시.
◦
오픈 데이터 레시피를 제공하여 연구의 재현성과 개방성을 증진.
◦
체크포인트 가중치 평균 및 테스트 시간 해상도 탐색과 같은 효과적인 성능 향상 기술 제시.
◦
데이터 효율적인 모델 훈련을 통해 적은 데이터로도 경쟁력 있는 성능을 달성.
•
한계점:
◦
논문에서 구체적인 데이터셋 규모나 모델 아키텍처에 대한 상세 정보가 부족할 수 있음.
◦
다른 최첨단 모델과의 전반적인 비교 및 광범위한 벤치마크 결과가 충분하지 않을 수 있음.
◦
Ascend NPUs에 특화된 훈련 프레임워크이므로 다른 하드웨어 환경에서의 일반화 가능성은 제한적일 수 있음.
◦
모델의 실제 활용 가능성 및 다양한 실제 문제에 대한 적용 사례에 대한 분석이 부족할 수 있음.