Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Created by
  • Haebom

저자

Kimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxiang Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haotian Yao, Haotian Zhao, Haoyu Lu, Haoze Li, Haozhen Yu, Hongcheng Gao, Huabin Zheng, Huan Yuan, Jia Chen, Jianhang Guo, Jianlin Su, Jianzhou Wang, Jie Zhao, Jin Zhang, Jingyuan Liu, Junjie Yan, Junyan Wu, Lidong Shi, Ling Ye, Longhui Yu, Mengnan Dong, Neo Zhang, Ningchen Ma, Qiwei Pan, Qucheng Gong, Shaowei Liu, Shengling Ma, Shupeng Wei, Sihan Cao, Siying Huang, Tao Jiang, Weihao Gao, Weimin Xiong, Weiran He, Weixiao Huang, Wenhao Wu, Wenyang He, Xianghui Wei, Xianqing Jia, Xingzhe Wu, Xinran Xu, Xinxing Zu, Xinyu Zhou, Xuehai Pan, Y. Charles, Yang Li, Yangyang Hu, Yangyang Liu, Yanru Chen, Yejie Wang, Yibo Liu, Yidao Qin, Yifeng Liu, Ying Yang, Yiping Bao, Yulun Du, Yuxin Wu, Yuzhi Wang, Zaida Zhou, Zhaoji Wang, Zhaowei Li, Zhen Zhu, Zheng Zhang, Zhexu Wang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Ziyao Xu, Zonghan Yang, Zongyu Lin

개요

본 논문은 강화 학습(RL)을 이용하여 훈련된 다중 모달 대규모 언어 모델(LLM) Kimi k1.5의 훈련 과정과 결과를 보고합니다. 기존의 다음 토큰 예측 방식의 한계를 극복하고 RL을 통해 LLM의 훈련 데이터 확장 및 성능 향상을 시도하였습니다. 몬테카를로 트리 탐색, 가치 함수, 프로세스 보상 모델과 같은 복잡한 기술에 의존하지 않고, 장문 맥락 확장 및 향상된 정책 최적화 기법을 통해 단순하면서도 효과적인 RL 프레임워크를 구축했습니다. 그 결과, AIME, MATH 500, Codeforces, MathVista 등 다양한 벤치마크에서 최첨단 추론 성능을 달성하였으며, 특히 단문 Chain-of-Thought(CoT) 모델의 성능을 크게 향상시키는 'long2short' 기법을 제시하여 기존 모델들을 상당한 차이로 능가했습니다.

시사점, 한계점

시사점:
강화 학습을 이용한 다중 모달 LLM 훈련의 효과성을 입증.
복잡한 RL 기술 없이도 최첨단 성능 달성 가능성 제시.
장문 CoT 기법을 활용한 단문 CoT 모델 성능 향상 기법(long2short) 제시.
다양한 벤치마크에서 OpenAI의 o1 모델과 유사하거나 능가하는 성능 달성.
기존 단문 CoT 모델 대비 큰 성능 향상 (최대 +550%).
한계점:
Kimi k1.5 모델의 훈련에 사용된 데이터셋 및 구체적인 하이퍼파라미터에 대한 자세한 정보 부족.
제시된 RL 프레임워크의 일반화 성능 및 다른 LLM에 대한 적용 가능성에 대한 추가 연구 필요.
long2short 기법의 일반성 및 다른 유형의 문제에 대한 적용 가능성에 대한 추가 검증 필요.
👍