Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch
Created by
Haebom
Category
Empty
저자
Yirong Zeng, Xiao Ding, Yutai Hou, Yuxian Wang, Li Du, Juyi Dai, Qiuyang Ding, Duyu Tang, Dandan Tu, Weiwen Liu, Bing Qin, Ting Liu
개요
도구 사용 LLM 훈련은 복잡한 작업을 위한 언어 모델의 역량을 향상시키는 유망한 접근 방식이다. 현재의 지도 학습 미세 조정 패러다임은 모델을 훈련하기 위해 광범위한 도메인별 데이터 세트를 구축하는 데 의존한다. 그러나 이 접근 방식은 익숙하지 않거나 복잡한 도구 사용 시나리오로 효과적으로 일반화하는 데 어려움을 겪는다. 본 연구에서는 순수 강화 학습을 사용하여 모델의 내재적 추론 능력을 효과적으로 이끌어내고 도구에 구애받지 않는 일반화를 향상시킬 수 있는가에 대한 핵심 질문에 답하고자 한다. 우리는 규칙 기반 강화 학습을 위한 동적 일반화 유도 보상 설계를 제안하며, 이는 탐색적 패턴에서 활용적 도구 사용 패턴으로 보상을 점진적으로 전환한다. 이 설계를 기반으로 Tool-Zero 시리즈 모델을 소개한다. 이러한 모델은 Zero 모델(즉, 사후 훈련이 없는 기본 모델)에서 강화 학습을 직접 확장하여 LLM이 일반 도구를 자율적으로 사용하도록 훈련된다. 실험 결과는 우리의 모델이 동일한 실험 설정에서 SFT 및 RL-with-SFT 모델보다 7% 이상 성능 향상을 달성함을 보여준다. 이러한 개선은 교차 데이터 세트 및 내부 데이터 세트 평가에서 일관되게 재현되어, 우리 방법의 효과와 견고성을 입증한다.