Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LongCat-Flash Technical Report

Created by
  • Haebom

作者

Meituan LongCat Team, Bayan, Bei Li, Bingye Lei, Bo Wang, Bolin Rong, Chao Wang, Chao Zhang, Chen Gao, Chen Zhang, Cheng Sun, Chengcheng Han, Chenguang Xi, Chi Zhang, Chong Peng, Chuan Qin, Chuyu Zhang, Den Chenブー、ディンチャンZhao、Deyang Kong、Dishan Liu、Feiye Huo、Fengcun Li、Fubao Zhang、Gan Dong、Gang Liu、Gang Xu、Ge Li、Guoqiang Tan、Guoyuan Lin、Haihang Jing、Haomin Fu、Haonan Yan、Haoxing Wen、 Hao, Hongyin Tang, Huantian Lv, Hui Su, Jiacheng Li, Jiahao Liu, Jiahuan Li, Jiajun Yang, Jiaming Wang, Jian Yang, Jianchao Tan, Jiaqi Sun, Jiaqi Zhang, Jiawei Fu, Jiawei Yang, Jiaxi Hu, Jiayu Junhui Mei, Kai Liang, Ke He, Kefeng Zhang, Keheng Wang, Keqing He, Liang Gao, Liang Shi, Lianhui Ma, Lin Qiu, Lingbin Kong, Lingtong Si, Linkun Lyu, Linsen Guo, Liqi Yang, Lizhi Yan, Mai Xia, Man Gao, Myu Mingxiang Tuo, Mingyang Zhu, Peiguang Li, Peng Pei, Peng Zhao, Pengcheng Jia, Pingwei Sun, Qi Gu, Qianyun Li, Qingyuan Li, Qiong Huang, Qiyuan Duan, Ran Meng, Rongxiang Weng, Ruichen Shao, Rumei Lio, Shio Dang, Tao Fang, Tao Li, Tefeng Chen, Tianhao Bai, Tianhao Zhou, Tingwen Xie, Wei He, Wei Huang, Wei Liu, Wei Shi, Wei Wang, Wei Wu, Weikang Zhao, Wen Zan, Wenjie Shi, Xi Nan, Xi Su, Xiang Li, Xiang Mei, Huang、Xianpeng Li、Xiao Fu、Xiao Liu、Xiao Wei、Xiaodong Cai、Xiaolong Chen、Xiaoqing Liu、Xiaotong Li、Xiaowei Shi、Xiaoyu Li、Xili Wang、Xin Chen、Xing Hu、Xingyu Miao、Xinyan He、Xuema Cao, Xunliang Cai, Xurui Yang, Yan Feng, Yang Bai, Yang Chen, Yang Yang, Yaqi Huo, Yerui Sun, Yifan Lu, Yifan Zhang, Yipeng Zang, Yitao Zhai, Yiyang Li, Yongjing Yin, Yongkang Lv, Yongwe Yuewen Zheng, Yuhuai Wei, Yulei Qian, Yunfan Liang, Yunfang Tai, Yunke Zhao, Zeyang Yu, Zhao Zhang, Zhaohua Yang, Zhenchao Zhang, Zhikang Xia, Zhiye Zou, Zhifhao Zeng, Zhongda Su, Zhongda Su, Zixu Jiang、Zizhe Zhao、Zongyu Wang、Zunhai Su

概要

LongCat-Flashは、計算効率と高度なエージェント機能のために設計された5600億パラメータのMixture-of-Experts(MoE)言語モデルです。スケーラブルな効率のために、ゼロ計算の専門家(Zero-computation Experts)と短縮接続MoE(Shortcut-connected MoE)の2つの新しい設計を採用しました。ゼロ計算の専門家は動的な計算予算の割り当てを可能にし、コンテキスト要求に応じて186億から313億(平均270億)のパラメータを有効にしてリソースの使用を最適化します。短縮接続MoEは、計算と通信のネストされたウィンドウを拡張し、同様の規模のモデルと比較して推論効率とスループットを大幅に向上させます。 20兆トークン以上を30日以内に訓練を完了し、推論速度は毎秒100トークン以上、100万出力トークンあたりの費用は0.7ドルです。最適化された混合物の大規模な事前訓練、推論、コード、およびガイドラインの目標中間および後訓練、合成データおよびツールの使用を通じたさらなる拡張により、エージェントのインテリジェンスを向上させました。競争力のあるパフォーマンスを示し、特にエージェントの仕事で優れた強みを示します。モデルチェックポイントはオープンソースで公開されました。

Takeaways、Limitations

Takeaways:
5600億パラメータのMoEモデルであるLongCat-Flashは、計算効率とエージェント機能の両方を向上させました。
ゼロ計算の専門家と短縮接続MoEアーキテクチャは、大規模モデルの効率を向上させる新しい方法を提示します。
安定した再現可能なトレーニングのための包括的な拡張フレームワークを開発しました。
大規模言語モデルのエージェント機能を向上させるための新しいアプローチを紹介します。
モデルチェックポイントをオープンソースとして公開し、コミュニティ研究を促進します。
Limitations:
MoEモデルの性質上、推論時間の変動性が存在する可能性がある。
エージェント機能評価のためのより厳しいベンチマークが必要な場合があります。
モデルの規模のために、トレーニングと展開にはかなりのリソースが必要です。
👍