Sign In

Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Ran Xu, Jingjing Chen, Jiayu Ye, Yu Wu, Jun Yan, Carl Yang, Hongkun Yu

개요

본 논문은 대규모 언어 모델(LLM)을 활용한 평가자(judge)의 정확도를 높이기 위해, 코드 실행기를 통합하는 새로운 강화 학습(RL) 프레임워크인 TIR-Judge를 제안합니다. TIR-Judge는 검증 가능한(verifiable) 및 검증 불가능한(non-verifiable) 도메인에 걸쳐 다양한 학습, 유연한 판단 형식(pointwise, pairwise, listwise) 지원, 증류(distillation) 없이 초기 모델에서 직접 시작하는 반복적 RL을 기반으로 합니다. 7개의 공개 벤치마크에서 기존 평가자들을 능가하며, 특히 증류 없이 훈련된 TIR-Judge-Zero는 증류된 모델과 유사한 성능을 보입니다.

시사점, 한계점

시사점:
LLM 평가자의 정확도 향상을 위한 코드 실행기 통합의 효과 입증.
다양한 판단 형식 및 반복적 RL을 통한 모델 성능 향상.
증류 없이도 높은 성능을 달성하여, 모델 훈련의 효율성을 높임.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음.
👍