Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Introducing LongCat-Flash-Thinking: A Technical Report

Created by
  • Haebom
Category
Empty

저자

Meituan LongCat Team, Anchun Gui, Bei Li, Bingyang Tao, Bole Zhou, Borun Chen, Chao Zhang, Chao Zhang, Chengcheng Han, Chenhui Yang, Chi Zhang, Chong Peng, Chuyu Zhang, Cong Chen, Fengcun Li, Gang Xu, Guoyuan Lin, Hao Jiang, Hao Liang, Haomin Fu, Haoxiang Ma, Hong Liu, Hongyan Hao, Hongyin Tang, Hongyu Zang, Hongzhi Ni, Hui Su, Jiahao Liu, Jiahuan Li, Jialin Liu, Jianfei Zhang, Jianhao Xu, Jianing Wang, Jiaqi Sun, Jiaqi Zhang, Jiarong Shi, Jiawei Yang, Jingang Wang, Jinrui Ding, Jun Kuang, Jun Xu, Ke He, Kefeng Zhang, Keheng Wang, Keqing He, Li Wei, Liang Shi, Lin Qiu, Lingbin Kong, Lingchuan Liu, Linsen Guo, Longfei An, Mai Xia, Meng Zhou, Mengshen Zhu, Peng Pei, Pengcheng Jia, Qi Gu, Qi Guo, Qiong Huang, Quan Chen, Quanchi Weng, Rongxiang Weng, Ruichen Shao, Rumei Li, Shanglin Lei, Shuai Du, Shuaikang Liu, Shuang Zhou, Shuhao Hu, Siyu Xu, Songshan Gong, Tao Liang, Tianhao Hu, Wei He, Wei Shi, Wei Wang, Wei Wu, Wei Zhuo, Weifeng Tang, Wenjie Shi, Wenlong Zhu, Xi Su, Xiangcheng Liu, Xiangyu Xi, Xiangzhou Huang, Xiao Liu, Xiaochen Jiang, Xiaowei Shi, Xiaowen Shi, Xiaoyu Li, Xin Chen, Xinyue Zhao, Xuan Huang, Xuemiao Zhang, Xuezhi Cao, Xunliang Cai, Yajie Zhang, Yang Chen, Yang Liu, Yang Liu, Yang Zheng, Yaoming Wang, Yaqi Huo, Yerui Sun, Yifan Lu, Yiyang Li, Youshao Xiao, Yuanzhe Lei, Yuchen Xie, Yueqing Sun, Yufei Zhang, Yuhuai Wei, Yulei Qian, Yunke Zhao, Yuqing Ding, Yuwei Jiang, Zhaohua Yang, Zhengyu Chen, Zhijian Liu, Zhikang Xia, Zhongda Su, Ziran Li, Ziwen Wang, Ziyuan Zhuang, Zongyu Wang, Zunyuan Yang

개요

LongCat-Flash-Thinking은 5600억 개의 파라미터를 가진 효율적인 오픈소스 전문가 혼합(MoE) 추론 모델입니다. 긴 Chain-of-Thought (CoT) 데이터 콜드 스타트와 대규모 강화 학습(RL)을 통해 고급 기능을 개발했습니다. 콜드 스타트 훈련 전략을 사용하여 추론 능력을 향상시키고, 공식 및 에이전트 추론 모두에서 특화된 기술을 갖추도록 했습니다. 도메인별 병렬 훈련 방식을 통해 STEM, 코드, 에이전트와 같은 별개의 도메인에서 최적화를 분리하고, 결과적으로 전문가 모델을 단일 모델로 통합합니다. Dynamic ORchestration for Asynchronous rollout (DORA) 시스템을 통해 수천 개의 가속기에서 동기식 방식보다 3배 이상 빠른 훈련 속도를 제공합니다. LongCat-Flash-Thinking은 복잡한 추론 작업에서 오픈소스 모델 중 최고의 성능을 보이며, AIME-25에서 평균 토큰 소비량을 64.5% 감소(19,653에서 6,965로)시키면서 작업 정확도를 유지합니다.

시사점, 한계점

오픈 소스 MoE 모델 중 최고 성능 달성
Agentic 추론에서 토큰 소비량 대폭 감소 (64.5%)
DORA 시스템을 통한 훈련 속도 향상 (3배 이상)
콜드 스타트 훈련 및 도메인별 병렬 훈련 방식의 효과
모델 성능 향상을 위한 대규모 RL 활용
추론 시스템 및 Agentic AI 연구 발전에 기여
한계점에 대한 정보는 논문 내용에 명시되지 않음
👍