Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

Created by
  • Haebom

作者

Ling Team, Anqi Shen, Baihui Li, Bin Hu, Bin Jing, Cai Chen, Chao Huang, Chao Zhang, Chaokun Yang, Cheng Lin, Chengyao Wen, Congqi Li, Deng Zhao, Dingbo Yuan, Donghai You, Fagui Mao, Fanzhuang Meng, Feng Dai、Haonan Zheng、Hong Liu、Jia Guo、Jiaming Liu、Jian Liu、Jianhao Fu、Jiannan Shi、Jianwen Wang、Jianxin Lai、Jin Yang、Jun Mei、Jun Zhou、Junbo Zhao、Junping Zhao、Kuan Xu、Le Su、Lei Chen、Li Tang Linfeng Shi, Lisha Liao, Longfei Zheng, Meng Li, Mingchun Chen, Qi Zuo, Qiang Cheng, Qianggang Cao, Qitao Shi, Quanrui Guo, Senlin Zhu, Shaofei Wang, Shaomian Zheng, Shuaicheng Li, Shuwei Gu, Siba Chen,周、ティワイビー、トンカイヤン、ワンホン、ワンレン、ワイウアチェン、ウェンボユ、ウェンチャンツェン、Xiangchun Wang、Xiaodong Yan、Xiaopei Wan、Xin Zhao、Xinyu Kong、Xinyu Tang、Xudong Han、Xudong Wang、Xue Sun、Yicheng Shan、Yilong Wang、Yingying Xu、Yongkang Liu、Yongzhen Guo、Yuanyuan Wang、Yuchen Yan、Yuefan Wang、Yuhong Guo、Zehuan Li、Zhankai Xu、Zhe Li、Zhenduo Zhang、Zhengke Gui、Zhenxuan Lan、 Ding, Zhiqiang Zhang, Zhixun Li, Zhizhen Liu, Zihao Wang, Zujie Wen

概要

Ring-1Tは、1兆個のパラメータを持つ最初のオープンソース最先端思考モデルです。トークンあたり約500億個がアクティブになります。トレーニング - 推論ソートの不一致、ロールアウト処理の非効率性、RLシステムのボトルネックなどの問題を解決するために、トークンレベルの差分マスキングとクリッピングによるRLトレーニングの安定化(IcePop)、トークン予算下でのロングロールアウトのリソース利用率の改善(C3PO ++)、および1兆パラメータモデルの訓練を妨げる(ASystem)の3つの革新的な技術を提示します。 AIME-2025で93.4、HMMT-2025で86.72、CodeForcesで2088、ARC-AGI-1で55.94を記録し、IMO-2025で銀メダルレベルの結果を達成しました。

Takeaways、Limitations

1兆個のパラメータを持つ大規模モデルをオープンソースとして公開し、研究コミュニティに最先端の推論能力に直接アクセスできるようにしました。
トレーニング - 推論の不一致、ロールアウト処理の非効率性、RLシステムのボトルネックなど、大規模モデルトレーニングの主な課題を解決するための革新的な技術を提示しました。
さまざまなベンチマークで優れたパフォーマンスを達成し、オープンソースモデルのパフォーマンスの新しい基準を提供しました。
IMO-2025で銀メダルを獲得し、モデルの強力な推論能力を実証しました。
論文自体ではLimitationsに言及されていませんが、大規模モデルのトレーニングと展開には膨大なコンピューティングリソースが必要であることを考慮する必要があります。
👍