Sign In

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Created by
  • Haebom
Category
Empty

저자

Kimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxiang Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haotian Yao, Haotian Zhao, Haoyu Lu, Haoze Li, Haozhen Yu, Hongcheng Gao, Huabin Zheng, Huan Yuan, Jia Chen, Jianhang Guo, Jianlin Su, Jianzhou Wang, Jie Zhao, Jin Zhang, Jingyuan Liu, Junjie Yan, Junyan Wu, Lidong Shi, Ling Ye, Longhui Yu, Mengnan Dong, Neo Zhang, Ningchen Ma, Qiwei Pan, Qucheng Gong, Shaowei Liu, Shengling Ma, Shupeng Wei, Sihan Cao, Siying Huang, Tao Jiang, Weihao Gao, Weimin Xiong, Weiran He, Weixiao Huang, Wenhao Wu, Wenyang He, Xianghui Wei, Xianqing Jia, Xingzhe Wu, Xinran Xu, Xinxing Zu, Xinyu Zhou, Xuehai Pan, Y. Charles, Yang Li, Yangyang Hu, Yangyang Liu, Yanru Chen, Yejie Wang, Yibo Liu, Yidao Qin, Yifeng Liu, Ying Yang, Yiping Bao, Yulun Du, Yuxin Wu, Yuzhi Wang, Zaida Zhou, Zhaoji Wang, Zhaowei Li, Zhen Zhu, Zheng Zhang, Zhexu Wang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Ziyao Xu, Zonghan Yang

개요

본 논문은 강화학습(RL)을 이용하여 다중 모달 대규모 언어 모델(LLM) Kimi k1.5를 학습시킨 과정과 결과를 보고합니다. 기존의 다음 토큰 예측 방식의 LLM 학습의 한계를 극복하기 위해 RL을 도입하여, 모델이 보상을 통해 데이터를 탐색하고 학습하도록 함으로써 훈련 데이터의 스케일링 문제를 해결하고자 하였습니다. Monte Carlo tree search, value functions, process reward models 와 같은 복잡한 기법 없이도 장문 맥락 스케일링 및 향상된 정책 최적화 기법을 통해 경쟁력 있는 결과를 달성했습니다. Kimi k1.5는 AIME, MATH 500, Codeforces, MathVista 등 다양한 벤치마크에서 최첨단 추론 성능을 달성하였으며, 특히 'long2short' 기법을 통해 단문 Chain-of-Thought(CoT) 모델의 성능을 크게 향상시켰습니다.

시사점, 한계점

시사점:
강화학습을 이용한 LLM 학습의 효과성을 입증하였습니다.
복잡한 RL 기법 없이도 우수한 성능을 달성 가능함을 보여주었습니다.
장문 CoT 기법을 활용한 'long2short' 방법으로 단문 CoT 모델의 성능을 획기적으로 향상시켰습니다.
다양한 벤치마크에서 최첨단 성능을 달성했습니다.
한계점:
Kimi k1.5의 학습에 사용된 구체적인 RL 기법 및 하이퍼파라미터에 대한 자세한 설명이 부족할 수 있습니다.
다른 RL 기반 LLM과의 비교 분석이 더욱 상세하게 이루어질 필요가 있습니다.
'long2short' 기법의 일반화 가능성 및 적용 범위에 대한 추가 연구가 필요합니다.
👍