Klear-AgentForge: Forging Agentic Intelligence through Posttraining Scaling
Created by
Haebom
Category
Empty
저자
Qi Wang, Hongzhi Zhang, Jia Fu, Kai Fu, Yahui Liu, Tinghai Zhang, Chenxi Sun, Gangwei Jiang, Jingyi Tang, Xingguang Ji, Yang Yue, Jingyuan Zhang, Fuzheng Zhang, Kun Gai, Guorui Zhou
개요
본 연구는 강력한 에이전트 모델 개발에 필수적인 훈련 후 세부 사항의 부재 문제를 해결하기 위해, Qwen3-8B 기반 모델을 사용하여 외부 도구 및 환경과 상호 작용하는 고성능 에이전트 모델 Klear-Qwen3-AgentForge를 위한 완전 개방형 파이프라인을 제시한다. 합성 데이터 기반의 효과적인 지도 학습(SFT)과 다중 턴 강화 학습(RL)을 통해 다양한 에이전트 작업에 대한 잠재력을 발휘하도록 설계되었으며, 도구 사용 및 코딩 분야의 다양한 에이전트 벤치마크에서 실험을 수행했다. Klear-Qwen3-AgentForge-8B는 유사한 크기의 LLM 중에서 최고 성능을 달성했으며, 훨씬 더 큰 모델과도 경쟁 가능한 수준을 보인다.