Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation

Created by

Haebom

저자

Inclusion AI, :, Bowen Ma, Cheng Zou, ChengKun Du, Canxiang Yan, Chunxiang Jin, Chunjie Shen, Chenyu Lian, Chengxiang Fan, Dandan Zheng, Fudong Wang, Furong Xu, Guangming Yao, Haohao Liu, Han Peng, Jun Zhou, Junluan Xia, Jingdong Chen, Jianing Li, Jianxin Sun, Jianjiang Zhu, Jianping Jiang, Jinpeng Ou, Jun Peng, Jin Peng, Kaixiang Ji, Li Tang, Libin Wang, Lixiang Ru, Longhua Tan, Lu Ma, Lan Wang, Mochen Bai, Minghong Cai, Mingxue Yang, Ning Gao, Qingpei Guo, Qinglong Zhang, Qiang Xu, Qin Zhao, Rui Liu, Ruijie Xiong, Ruobing Zheng, Sirui Gao, Shaoxiong Lin, Tao Zhang, Tianqi Li, Tinghao Liu, Tongli Wang, Taoye Huang, Weilong Chai, Xiaomei Wang, Xiaolong Wang, Xiaojian Liu, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Xuezhi Wang, Yi Yuan, Yuting Gao, Yuting Xiao, Yunxiao Sun, Yipeng Chen, Yifan Mao, Yifei Wu, Yongjie Lyu, Yingying Zhang, YuQian Li, Ziping Ma, Zhiqiang Fang, Zhihao Qiu, Ziyuan Huang, Zizheng Yang, Zhengyu He

💡 개요

본 논문은 1000억 개의 총 파라미터를 가지지만 토큰당 61억 개만 활성화되는 희소한 Mixture-of-Experts (MoE) 기반의 언어 모델인 Ming-Flash-Omni를 제안한다. 이 아키텍처는 연산 효율성을 높이고 모델 용량을 확장하여 시각, 음성, 언어를 아우르는 강력한 통합 멀티모달 지능을 구현한다. 이전 모델 대비 이해 및 생성 능력이 크게 향상되었으며, Gemini 2.5 Pro와 동등한 성능을 Vision-Language 이해 벤치마크에서 달성한다.

🔑 시사점 및 한계

•

단일 통합 모델이 범용 멀티모달 지능의 실질적인 기반이 될 수 있음을 입증한다.

•

희소 MoE 아키텍처를 통해 높은 연산 효율성과 모델 용량 확장을 동시에 달성할 수 있다.

•

Vision-Language 이해, 음성 처리, 시각 생성 등 다양한 멀티모달 작업에서 상당한 성능 향상을 보여준다.

•

AGI(Artificial General Intelligence)로 나아가는 중요한 단계를 제시한다.

•

본 연구에서 제시된 구체적인 학습 데이터셋 및 학습 전략에 대한 추가적인 정보가 공개될 필요가 있다.

PDF 보기

Made with Slashpage