Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

J4R: Learning to Judge with Equivalent Initial State Group Relative Preference Optimization

Created by
  • Haebom

저자

Austin Xu, Yilun Zhou, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty

개요

본 논문은 대규모 언어 모델(LLM)의 급속한 발전에 따라, 시간이 많이 소요되는 인간 평가 대신 LLM 자체를 이용한 자동 평가가 주목받고 있음을 지적합니다. 특히, LLM을 평가자로 활용하는 모델(LLM-as-judge)은 채팅 품질 평가와 같이 상대적으로 단순한 영역에서는 우수한 성능을 보이지만, 추론이 필요한 복잡한 영역에서는 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 강화 학습(RL)을 이용한 평가자 훈련을 제안합니다. 본 논문은 세 가지 주요 기여를 합니다. 첫째, 복잡한 평가 환경에서 발생하는 위치 편향에 강건한 평가자를 훈련할 수 있는 새로운 알고리즘인 EIS-GRPO를 제안합니다. 둘째, 기존 연구에서 다루지 않았던 다양한 추론 설정에서 평가자를 평가하는 새로운 벤치마크인 ReasoningJudgeBench를 소개합니다. 셋째, EIS-GRPO를 사용하여 훈련된 7B 크기의 추론 평가자 J4R을 제시하며, 이는 GPT-4o 및 다른 최고 성능의 소형 평가자보다 6.7% 및 9% 높은 성능을 보이며, JudgeBench와 ReasoningJudgeBench 모두에서 더 큰 GRPO 훈련 평가자의 성능과 동등하거나 우수함을 보여줍니다.

시사점, 한계점

시사점:
강화학습을 이용한 LLM 평가자 훈련의 효용성을 입증.
위치 편향에 강건한 EIS-GRPO 알고리즘 제안.
추론 능력 평가에 특화된 새로운 벤치마크 ReasoningJudgeBench 제시.
기존 최고 성능 모델 대비 우수한 성능을 보이는 새로운 LLM 평가자 J4R 개발.
한계점:
ReasoningJudgeBench의 일반화 가능성에 대한 추가 연구 필요.
EIS-GRPO 알고리즘의 다른 RL 알고리즘과의 비교 분석 필요.
J4R의 성능 한계 및 개선 가능성에 대한 추가 연구 필요.
LLM 평가자의 잠재적인 편향 문제에 대한 추가적인 고찰 필요.
👍