Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning
Created by
Haebom
저자
Shaokun Zhang, Yi Dong, Jieyu Zhang, Jan Kautz, Bryan Catanzaro, Andrew Tao, Qingyun Wu, Zhiding Yu, Guilin Liu
개요
본 논문은 대규모 언어 모델(LLM)의 외부 도구 호출 능력 향상을 위한 새로운 접근법을 제시합니다. 기존의 지도 학습 기반 미세 조정 방식 대신, 규칙 기반 강화 학습을 활용하여 도구 호출의 형식적 유효성과 기능적 정확성만을 평가하는 이진 보상으로 모델을 훈련합니다. 이를 통해 주석이 달린 경로에 의존하지 않고 모델이 독립적으로 추론 전략을 개발할 수 있도록 합니다. Nemotron-Research-Tool-N1이라는 일련의 도구 호출 추론 모델을 개발했으며, 여러 주요 벤치마크에서 GPT-4o를 능가하는 성능을 보였습니다. 또한 5,518개의 추론 경로를 사용하여 지도 학습 미세 조정, 강화 학습, 그리고 두 가지를 결합한 방식을 비교 분석하여 순수 강화 학습이 항상 최고는 아님을 보였습니다.
시사점, 한계점
•
시사점:
◦
규칙 기반 강화 학습을 통해 LLM의 도구 호출 능력을 효과적으로 향상시킬 수 있음을 보여줌.
◦
기존의 지도 학습 방식에 비해, 주석 데이터 의존도를 낮추고 일반화 성능을 높일 수 있음.
◦
GPT-4o를 능가하는 성능을 달성한 Nemotron-Research-Tool-N1 모델 제시.
◦
지도 학습 미세 조정과 강화 학습의 결합이 항상 최적의 성능을 보장하지 않음을 실험적으로 증명.
•
한계점:
◦
본 논문에서 제시된 규칙 기반 강화 학습 전략의 일반화 가능성에 대한 추가 연구 필요.
◦
다양한 도구 및 작업에 대한 적용성 검증이 추가적으로 필요.
◦
5,518개의 추론 경로는 상대적으로 적은 양일 수 있으며, 더 많은 데이터를 사용한 실험이 필요할 수 있음.