Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation

Created by
  • Haebom
Category
Empty

저자

Inclusion AI, :, Bowen Ma, Cheng Zou, Canxiang Yan, Chunxiang Jin, Chunjie Shen, Chenyu Lian, Dandan Zheng, Fudong Wang, Furong Xu, GuangMing Yao, Jun Zhou, Jingdong Chen, Jianing Li, Jianxin Sun, Jiajia Liu, Jian Sha, Jianjiang Zhu, Jianping Jiang, Jun Peng, Kaixiang Ji, Kaimeng Ren, Libin Wang, Lixiang Ru, Longhua Tan, Lu Ma, Lan Wang, Mochen Bai, Ning Gao, Qingpei Guo, Qinglong Zhang, Qiang Xu, Rui Liu, Ruijie Xiong, Ruobing Zheng, Sirui Gao, Tao Zhang, Tianqi Li, Tinghao Liu, Weilong Chai, Xinyu Xiao, Xiaomei Wang, Xiaolong Wang, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Yi Yuan, Yuting Gao, Yuting Xiao, Yunxiao Sun, Yipeng Chen, Yifan Mao, Yifei Wu, Yongjie Lyu, Ziping Ma, Zhiqiang Fang, Zhihao Qiu, Ziyuan Huang, Zizheng Yang, Zhengyu He

개요

Ming-Flash-Omni는 Ling-Flash-2.0의 희소 Mixture-of-Experts (MoE) 변형을 기반으로 구축된 Ming-Omni의 업그레이드 버전으로, 총 1,000억 개의 매개변수를 가지고 있으며 토큰당 61억 개만 활성화됩니다. 이 아키텍처는 효율적인 확장을 가능하게 하여 계산 효율성을 크게 향상시키고 모델 용량을 크게 확장하며, 시각, 음성 및 언어 전반에 걸쳐 강력한 통합 멀티모달 인텔리전스를 제공합니다. 이전 버전보다 멀티모달 이해 및 생성 능력이 향상되었으며, 상황 인식 ASR에서 최고 성능을 달성하고 방언 인식 ASR에서 경쟁력 있는 결과를 보였습니다. 이미지 생성에서 고품질 텍스트 렌더링을 도입하고 이미지 편집 중 장면 일관성과 정체성 유지를 개선했습니다. 또한, 강력한 독립형 세분화 성능을 달성하고 이미지 생성 및 편집 일관성에서 공간 제어를 향상시키는 생성형 세분화를 도입했습니다. 텍스트-이미지 생성 및 생성형 세분화에서 최고 성능을 달성했으며, 단일 통합 아키텍처 내에서 모든 12개의 상황 인식 ASR 벤치마크에서 새로운 기록을 세웠습니다.

시사점, 한계점

시사점:
계산 효율성을 크게 향상시키면서 모델 용량을 확장하는 효율적인 확장 가능성을 제공합니다.
시각, 음성 및 언어 전반에 걸쳐 강력한 통합 멀티모달 인텔리전스를 제공합니다.
상황 인식 ASR 및 방언 인식 ASR에서 획기적인 성능을 보입니다.
이미지 생성에서 고품질 텍스트 렌더링, 장면 일관성 및 정체성 유지를 개선합니다.
생성형 세분화를 도입하여 공간 제어를 향상시키고 이미지 생성 및 편집 일관성을 개선합니다.
텍스트-이미지 생성 및 생성형 세분화에서 최고 성능을 달성합니다.
한계점:
논문에 구체적인 한계점이 명시적으로 언급되지 않았습니다.
👍