Sign In

JudgeLRM: Large Reasoning Models as a Judge

Created by
  • Haebom
Category
Empty

저자

Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He

개요

본 논문은 대규모 언어 모델(LLM)을 평가자로 활용하는 연구를 다룹니다. 기존의 지도 학습 기반 미세 조정(SFT) 방식은 복잡한 추론이 필요한 도메인에서 한계점을 보이며, 평가 작업에서 SFT 성능 향상과 추론을 요구하는 샘플 간의 부정적 상관관계를 발견했습니다. 이를 해결하기 위해, 추론 능력을 활성화하기 위한 심판 기반의 결과 중심 보상으로 강화 학습(RL)을 사용하여 훈련된 JudgeLRM 모델을 제안합니다. JudgeLRM은 SFT 기반 모델 및 다른 RL 변형 모델보다 우수한 성능을 보였으며, 특히 추론이 중요한 작업에서 높은 성능을 보였습니다.

시사점, 한계점

시사점:
강화 학습(RL)을 통해 추론 능력을 갖춘 LLM 심판 모델 개발의 가능성을 제시합니다.
JudgeLRM 모델은 SFT 기반 모델 및 다른 RL 변형 모델보다 우수한 성능을 보입니다.
JudgeLRM 모델은 추론이 중요한 작업에서 특히 강점을 보입니다.
JudgeLRM-3B/4B는 GPT-4를, JudgeLRM-7B/8B/14B는 DeepSeek-R1을 능가하는 성능을 보였습니다.
한계점:
논문에서 구체적인 한계점 언급은 없습니다.
👍