Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

JudgeLRM: Large Reasoning Models as a Judge

Created by
  • Haebom

저자

Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He

개요

본 논문은 대규모 언어 모델(LLM)을 평가자로 활용하는 연구에 대해 다룹니다. 기존의 지도적 미세조정(SFT) 방법은 복잡한 추론을 요구하는 영역에서 한계를 보이는데, 본 연구는 LLM 평가자의 추론 능력 향상이 실제로 효과적인지 조사합니다. 다양한 평가 작업에 대한 추론 요구 사항 분석을 통해 SFT 성능 향상과 추론 요구 샘플 비율 간의 음의 상관관계를 밝히고, 이러한 한계를 극복하기 위해 판단 중심의 LLM인 JudgeLRM을 제시합니다. JudgeLRM은 판단자별 결과 중심 보상을 사용하는 강화 학습(RL)으로 훈련되며, SFT 및 최첨단 추론 모델보다 우수한 성능을 보입니다. 특히 JudgeLRM-3B는 GPT-4를, JudgeLRM-7B는 DeepSeek-R1을 F1 점수 기준 2.79% 상회하며, 심층 추론을 요구하는 판단 작업에서 뛰어난 성능을 나타냅니다.

시사점, 한계점

시사점:
LLM을 평가자로 활용하는 데 있어 강화학습 기반의 JudgeLRM이 SFT보다 효과적임을 보임.
복잡한 추론이 필요한 평가 작업에서도 우수한 성능을 달성 가능함을 증명.
JudgeLRM이 기존 최고 성능 모델인 GPT-4와 DeepSeek-R1을 능가하는 성능을 보임.
한계점:
JudgeLRM의 훈련에 사용된 강화학습 알고리즘 및 보상 함수의 세부적인 내용이 제한적으로 제시됨.
다양한 종류의 평가 작업에 대한 일반화 성능에 대한 추가적인 연구가 필요함.
JudgeLRM의 규모가 커짐에 따라 계산 비용이 증가할 수 있음.
👍