Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization

Created by
  • Haebom

저자

Austin Xu, Yilun Zhou, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty

개요

본 논문은 대규모 언어 모델(LLM)의 빠른 발전 속도에 맞춰, 시간이 많이 걸리는 인간 평가 대신 LLM 자체를 이용한 자동 평가 방식에 초점을 맞춥니다. 특히, LLM을 평가자로 활용하는 생성형 평가 모델이 단순한 영역에서는 우수하지만, 추론이 필요한 복잡한 영역에서는 부족함을 보이는 점을 해결하기 위해 강화 학습(RL)을 이용한 평가자 훈련을 제시합니다. 핵심 기여는 세 가지로, (1) 복잡한 평가 환경에서 발생하는 위치 편향에 강인한 EIS-GRPO 알고리즘을 제안하고, (2) 기존 연구에서 다루지 않은 다양한 추론 환경에서 평가자를 평가하는 ReasoningJudgeBench 벤치마크를 도입하며, (3) EIS-GRPO로 훈련된 7B 매개변수의 J4R 평가자를 제시하여 GPT-4o 및 다른 소규모 평가자보다 우수한 성능을 보임을 증명합니다.

시사점, 한계점

시사점:
강화학습을 통해 추론 능력이 필요한 복잡한 영역에서도 효과적으로 LLM의 출력을 평가할 수 있는 새로운 평가자 모델 개발 가능성을 제시.
기존 평가자의 한계점을 극복하기 위한 새로운 알고리즘(EIS-GRPO)과 벤치마크(ReasoningJudgeBench) 제시.
소규모 모델로도 대규모 모델에 버금가는 성능을 달성하여 효율적인 LLM 평가 가능성을 보여줌.
한계점:
EIS-GRPO 알고리즘 및 ReasoningJudgeBench의 일반화 성능에 대한 추가적인 검증 필요.
J4R 모델의 성능은 특정 벤치마크에 국한될 수 있으며, 다른 유형의 LLM 출력 평가에 대한 일반화 성능은 추가 연구가 필요.
인간 평가자와의 비교 분석이 부족하여, J4R의 평가 결과가 인간의 판단과 얼마나 일치하는지에 대한 추가 연구가 필요.
👍