Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization

Created by
  • Haebom

저자

Austin Xu, Yilun Zhou, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty

개요

본 논문은 대규모 언어 모델(LLM)의 빠른 발전 속도에 발맞춰, 시간이 많이 소요되는 인간 평가에서 LLM 자체를 이용한 자동 평가로 전환되는 추세를 다룹니다. 특히, 다른 모델의 출력을 평가하고 비판하는 생성형 평가자인 'LLM-as-judge' 모델에 초점을 맞춥니다. 기존의 'LLM-as-judge' 모델은 채팅 품질과 같은 단순한 영역에서는 뛰어나지만, 추론이 필요한 복잡한 영역에서는 어려움을 겪는다는 점을 지적합니다. 이를 해결하기 위해 강화 학습(RL)을 이용한 평가자 훈련을 탐구하고, 세 가지 주요 기여를 제시합니다. 첫째, 복잡한 평가 환경에서 발생하는 위치 편향에 강인한 평가자를 훈련할 수 있는 EIS-GRPO 알고리즘을 제안합니다. 둘째, 기존 연구에서 다루지 않은 다양한 추론 환경에서 평가자를 평가하는 ReasoningJudgeBench 벤치마크를 소개합니다. 셋째, EIS-GRPO로 훈련된 7B 크기의 Judge for Reasoning (J4R) 모델을 제시하며, 이는 GPT-4o 및 다른 소규모 평가자보다 6.7%와 9% 더 우수한 성능을 보이며, JudgeBench와 ReasoningJudgeBench 모두에서 대규모 GRPO 훈련된 평가자와 동등하거나 우수한 성능을 달성합니다.

시사점, 한계점

시사점:
강화학습 기반의 LLM 평가자 훈련을 통해 복잡한 추론 영역에서도 효과적인 자동 평가가 가능함을 보여줌.
EIS-GRPO 알고리즘을 통해 위치 편향 문제를 해결하고, 더욱 정확한 평가를 가능하게 함.
ReasoningJudgeBench라는 새로운 벤치마크를 제공하여 추론 능력 평가 연구를 발전시킴.
J4R 모델은 기존 모델 대비 우수한 성능을 보이며, 효율적인 LLM 평가자 개발 가능성을 제시함.
한계점:
EIS-GRPO 알고리즘 및 ReasoningJudgeBench의 일반화 가능성에 대한 추가 연구 필요.
J4R 모델의 성능은 특정 벤치마크에 국한될 수 있으며, 다른 유형의 LLM이나 평가 과제에 대한 일반화 성능 검증 필요.
LLM-as-judge 모델의 편향성 문제에 대한 완벽한 해결책 제시는 아직 미흡할 수 있음. 더욱 다양한 편향 유형에 대한 고려가 필요함.
👍