Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch

작성자

Haebom

카테고리

Empty

저자

Yirong Zeng, Xiao Ding, Yutai Hou, Yuxian Wang, Li Du, Juyi Dai, Qiuyang Ding, Duyu Tang, Dandan Tu, Weiwen Liu, Bing Qin, Ting Liu

개요

도구 사용 LLM의 훈련은 복잡한 작업을 위한 언어 모델의 역량 향상에 유망한 접근 방식으로 부상했습니다. 현재의 지도 학습 기반 미세 조정 패러다임은 모델을 훈련하기 위해 광범위한 도메인별 데이터 세트를 구축하는 데 의존합니다. 그러나 이 접근 방식은 익숙하지 않거나 복잡한 도구 사용 시나리오에 효과적으로 일반화하는 데 어려움을 겪습니다. 최근 강화 학습(RL) 패러다임은 LLM에 뛰어난 추론 및 일반화 능력을 부여할 수 있습니다. 본 연구에서는 순수 RL을 사용하여 모델의 내재된 추론 능력을 효과적으로 이끌어내고 도구에 구애받지 않는 일반화를 향상시킬 수 있는지에 대한 핵심 질문에 답하고자 합니다. 규칙 기반 RL을 위한 동적 일반화 지향 보상 설계를 제안하며, 이는 탐색적 패턴에서 활용적 도구 사용 패턴으로 보상을 점진적으로 전환합니다. 이 설계를 기반으로 Tool-Zero 시리즈 모델을 소개합니다. 이 모델은 제로 모델(사후 훈련 없는 기본 모델)에서 RL을 직접 확장하여 LLM이 일반 도구를 자율적으로 활용할 수 있도록 훈련됩니다. 실험 결과, 본 모델은 동일한 실험 설정에서 SFT 및 RL-with-SFT 모델에 비해 7% 이상의 성능 향상을 달성했습니다. 이러한 이점은 교차 데이터 세트 및 내부 데이터 세트 평가에서 일관되게 재현되어, 본 방법의 효과와 견고성을 입증합니다.

시사점, 한계점

•

시사점:

◦

순수 RL을 통해 LLM의 추론 능력 및 도구 사용 일반화 능력을 향상시킬 수 있음을 입증.

◦

동적 일반화 지향 보상 설계를 통해 효과적인 RL 훈련 가능성을 제시.

◦

Tool-Zero 모델 시리즈는 SFT 및 RL-with-SFT 모델 대비 우수한 성능을 보임.

◦

교차 데이터 세트 및 내부 데이터 세트 평가를 통해 방법론의 견고성 확인.

•

한계점:

◦

논문에 구체적인 한계점에 대한 언급 없음.

PDF 보기

Made with Slashpage