One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning
Created by
Haebom
Category
Empty
저자
Renhao Li, Jianhong Tu, Yang Su, Hamid Alinejad-Rokny, Derek F. Wong, Junyang Lin, Min Yang
개요
도구 사용 작업을 위해 특별히 설계된 경량 생성 보상 모델인 ToolRM 제품군을 소개합니다. 이 모델을 구축하기 위해 규칙 기반 점수 매기기 및 다차원 샘플링을 사용하여 쌍별 선호도 데이터를 구성하는 새로운 파이프라인을 제안합니다. 이를 통해 검증 가능한 피드백으로 강화 학습을 지원하는 다양한 비판 작업의 균형 잡힌 도전적인 데이터 세트인 ToolPref-Pairwise-30K가 생성됩니다. 또한, 도구 사용 보상 모델을 평가하기 위해 agentic 평가 제품군인 BFCL을 기반으로 구축된 TRBench$_{BFCL}$ 벤치마크를 소개합니다. ToolRM은 훈련된 모델이 pairwise reward 판단에서 Claude 4 및 OpenAI o3와 같은 주요 모델보다 성능이 뛰어납니다. 또한 Best-of-N 샘플링 및 self-correction을 포함한 광범위한 비판 작업에 적용할 수 있습니다. 실험 결과 ToolRM은 ACEBench에서 효과적이고 효율적이며, 추론 시간 확장을 가능하게 하고 출력 토큰 사용량을 66% 이상 줄이는 것으로 나타났습니다.
시사점, 한계점
•
시사점:
◦
도구 사용을 위한 경량 보상 모델 ToolRM을 제안하여, agentic AI 발전을 위한 새로운 길을 제시함
◦
Rule-based scoring 및 다차원 샘플링을 사용한 새로운 데이터 파이프라인 제안
◦
ToolRM은 Qwen3-4B/8B 시리즈 모델을 사용하여 pairwise reward 판단에서 기존 모델보다 뛰어난 성능을 보임
◦
Best-of-N 샘플링 및 self-correction과 같은 광범위한 비판 작업에 일반화됨
◦
ACEBench에서의 효과와 효율성을 입증하여, 추론 시간 확장 및 출력 토큰 사용량 감소 효과를 보임
◦
데이터 및 모델 체크포인트를 공개하여, 후속 연구에 기여
•
한계점:
◦
논문 내용만으로는 구체적인 한계점을 파악하기 어려움
◦
구현 세부 사항, 데이터셋의 편향성, 모델의 일반화 능력 등에 대한 추가적인 정보가 필요함