Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

Created by
  • Haebom
Category
Empty

저자

Ling Team, Ang Li, Ben Liu, Binbin Hu, Bing Li, Bingwei Zeng, Borui Ye, Caizhi Tang, Changxin Tian, Chao Huang, Chao Zhang, Chen Qian, Chenchen Ju, Chenchen Li, Chengfu Tang, Chilin Fu, Chunshao Ren, Chunwei Wu, Cong Zhang, Cunyin Peng, Dafeng Xu, Daixin Wang, Dalong Zhang, Dingnan Jin, Dingyuan Zhu, Dongke Hu, Fangzheng Zhao, Feifan Wu, Feng Zhu, Gangshan Wang, Haitao Zhang, Hailin Zhao, Hanxiao Zhang, Hanzi Wang, Hao Qian, Haoyi Yu, Heng Zhang, Hongliang Zhang, Hongzhi Luan, Huirong Dong, Huizhong Li, Jia Li, Jia Liu, Jialong Zhu, Jian Sha, Jianping Wei, Jiaolong Yang, Jieyue Ma, Jiewei Wu, Jinjing Huang, Jingyun Tian, Jingyuan Zhang, Jinquan Sun, Juanhui Tu, Jun Liu, Jun Xu, Jun Zhou, Junjie Ou, Junpeng Fang, Kaihong Zhang, Kaiqin Hu, Ke Shi, Kun Tang, Kunlong Chen, Lanyin Mei, Lei Liang, Lei Xu, Libo Zhang, Lin Ju, Lin Yuan, Ling Zhong, Lintao Ma, Lu Liu, Lu Yu, Lun Cai, Meiqi Zhu, Mengying Li, Min Chen, Minghao Xue, Minghong Cai, Mingming Yin, Peijie Jiang, Peilong Zhao, Pingping Liu, Qian Zhao, Qing Cui, Qingxiang Huang, Qingyuan Yang, Quankun Yu, Shaowei Wei, Shijie Lian, Shoujian Zheng, Shun Song, Shungen Zhang, Shuo Zhang, Siyuan Li, Song Liu, Ting Guo, Tong Zhao, Wanli Gu, Weichang Wu, Weiguang Han, Wenjing Fang, Wubin Wang, Xiang Shu, Xiao Shi, Xiaoshun Lan, Xiaolu Zhang, Xiaqing Sun, Xin Zhao, Xingyu Lu, Xiong Xu, Xudong Wang, Xudong Wang, Xuemin Yang, Yajie Yang, Yang Xiang, Yanzhe Li, Yi Zhang, Yilong Wang, Yingxue Li, Yongzhen Guo, Yuzhuo Fu, Yuanyuan Wang, Yue Yang, Yue Yu, Yufeng Deng, Yun Zhang, Yunfei Yu, Yuqi Zhang, Yuxiao He, Zengke Gui, Zhaoxin Huan, Zhaoyang Wang, Zhibo Zhu, Zhihao Wang, Zhiqiang Zhang, Zhoufei Wang, Zihang Zeng, Ziqi Liu, Zitao Xuan, Zuoli Tang

Ling 2.0 소개

개요: Ling 2.0은 추론 능력 향상을 목표로 설계된 일련의 추론 지향 언어 모델입니다. MoE(Mixture-of-Experts) 패러다임을 사용하여 100억에서 1조 개의 매개변수까지 확장 가능하도록 설계되었으며, 높은 희소성, 크로스 스케일 일관성 및 경험적 스케일링 법칙에 따른 효율성을 강조합니다. Ling-mini-2.0, Ling-flash-2.0 및 Ling-1T의 세 가지 모델을 포함하며, 160억에서 1조 개의 총 매개변수를 가지며 밀집 모델에 비해 최대 7배의 활성 컴퓨팅 효율성을 달성합니다. Ling 2.0은 모델 아키텍처, 사전 학습, 사후 학습 및 인프라 전반에 걸쳐 조화된 혁신을 통합합니다: 효율적인 추론을 위한 MTP가 있는 고희소성 MoE, 추론 지향 데이터 및 중간 훈련 CoT 활성화, 강화 기반 미세 조정(DFT, Evo-CoT) 및 세분화된 이종 파이프라인을 갖춘 전체 규모 FP8 훈련. 1조 규모에서 Ling-1T는 계산 효율성 대비 추론 정확도 측면에서 새로운 파레토 프론티어를 설정하여, 희소 활성화가 추론 목표에 적절히 맞춰질 때 확장 가능하고 효율적인 지능을 가능하게 함을 보여줍니다. Ling 2.0은 Ring 시리즈를 포함하여 미래의 추론 및 사고 모델을 발전시키기 위한 일관되고, 개방적이며 효율적인 기반을 제공합니다.
시사점, 한계점:
시사점:
높은 희소성을 활용한 MoE 아키텍처를 통해 효율적인 추론 가능성 입증.
추론 지향적인 데이터 및 훈련 방식으로 모델의 성능 향상.
FP8 훈련 및 다양한 훈련 기법을 통해 효율성과 성능을 모두 달성.
추론 정확도와 계산 효율성 간의 새로운 균형점을 제시.
미래 추론 및 사고 모델 개발을 위한 기반 제공.
한계점:
논문 내 구체적인 모델 성능 데이터 및 비교 결과 부족.
구현 세부 사항 및 기술적인 깊이에 대한 정보 부족.
모델의 일반화 성능 및 다양한 작업에서의 적용 가능성에 대한 정보 부족.
오픈 소스 여부 및 접근성에 대한 정보 부재.
👍