Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LongCat-Flash-Omni Technical Report

Created by
  • Haebom
Category
Empty

저자

Meituan LongCat Team, Bairui Wang, Bayan, Bin Xiao, Bo Zhang, Bolin Rong, Borun Chen, Chang Wan, Chao Zhang, Chen Huang, Chen Chen, Chen Chen, Chengxu Yang, Chengzuo Yang, Cong Han, Dandan Peng, Delian Ruan, Detai Xin, Disong Wang, Dongchao Yang, Fanfan Liu, Fengjiao Chen, Fengyu Yang, Gan Dong, Gang Huang, Gang Xu, Guanglu Wan, Guoqiang Tan, Guoqiao Yu, Haibo Qiu, Hao Lu, Hongbo Liu, Hongyu Xiang, Jiaheng Wu, Jian Yang, Jiaxing Liu, Jing Huang, Jingang Wang, Jinrui Ding, Juchao Jiang, Jun Kuang, Jun Wang, Junhui Mei, Ke Ding, Kefeng Zhang, Lei Chen, Liang Shi, Limeng Qiao, Liming Zheng, Lin Ma, Liuyang Guo, Liya Ma, Luying Sun, Man Gao, Mengshen Zhu, Miao Cao, Minliang Lin, Nuo Xu, Peng Shi, Qi Zhang, Qian Fang, Qian Wang, Qian Yang, Quanxiu Wang, Rongxiang Weng, Rongxin Guo, Ruoxuan Liang, Senbin Yang, Shanbo Xu, Shanglin Lei, Shengze Ye, Shimin Chen, Shuaiqi Chen, Shujie Hu, Shuo Li, Siqi Yang, Siyu Xu, Siyu Ren, Song Li, Songxiang Liu, Tianhao Bai, Tianye Dai, Wei Hong, Wei Wang, Weixiao Zhao, Wengang Cao, Wenlong Zhu, Wenlong He, Xi Su, Xi Nan, Xiaohan Zhao, Xiaohao Wang, Xiaoyu Zhao, Xiaoyu Wang, Xiaoyu Li, Xin Pan, Xin Chen, Xiusong Sun, Xu Xiang, Xudong Xing, Xuezhi Cao, Xunliang Cai, Yang Yang, Yanli Tan, Yao Yao, Yerui Sun, Yi Chen, Yifan Lu, Yin Gong, Yining Zhang, Yitian Chen, Yiyang Gan, Yuchen Tang, Yuchen Xie, Yueqian Wang, Yuewen Zheng, Yufei Zhang, Yufeng Zhong, Yulei Qian, Yuqi Peng, Yuqian Li, Yuwei Jiang, Zeyang Hu, Zheng Zhang, Zhengkun Tian, Zhiqing Hong, Zhixiong Zeng, Zhuqi Mi, Ziran Li, Ziwen Wang, Ziyi Zhao, Ziyuan Zhuang, Zizhe Zhao

개요

LongCat-Flash-Omni는 5600억 개의 매개변수를 가진 최첨단 오픈 소스 옴니 모달 모델로, 실시간 오디오-비주얼 상호 작용에 특화되었습니다. LongCat-Flash의 Shortcut-connected MoE 아키텍처를 기반으로 하며, 효율적인 멀티 모달 인지 및 음성 재구성 모듈을 통합합니다. 단순한 작업에서 점차 복잡한 모달 시퀀스 모델링 작업으로 전환하는 커리큘럼 기반의 점진적 학습 전략을 통해 강력한 단일 모달 기능을 유지하면서도 포괄적인 멀티 모달 기능을 달성합니다. 270억 개의 활성화된 매개변수로 실시간 오디오-비주얼 상호 작용을 수행하며, 모달리티 분리 병렬 처리 방식을 통해 대규모 멀티 모달 학습에 필요한 데이터 및 모델 이질성을 관리합니다.

시사점, 한계점

오픈 소스 옴니 모달 모델 중 최고 성능을 달성.
실시간 오디오-비주얼 상호 작용이 가능할 정도로 낮은 지연 시간 확보.
텍스트, 이미지, 비디오, 오디오 이해 및 생성 등 다양한 모달리티별 작업에서 경쟁력 있는 결과 제공.
모달리티 분리 병렬 처리 방식 개발로 대규모 멀티 모달 학습 효율성 향상.
5600억 개의 파라미터로 인한 높은 계산 비용.
👍