Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

Created by
  • Haebom

저자

Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha

개요

본 논문은 LLM 기반 평가 모델의 성능 향상을 위한 강화 학습 접근 방식인 J1을 제시합니다. J1은 검증 가능한 보상을 통해 사고 과정을 장려하고 판단 편향을 완화하여, 검증 가능 및 불가능한 프롬프트 모두를 판단 과제로 변환합니다. 8B 또는 70B 크기의 모델로 학습되었을 때 기존 모델들(DeepSeek-R1 증류 모델 포함)을 능가하는 성능을 보이며, 더 작은 모델임에도 불구하고 o1-mini 및 일부 벤치마크에서는 R1을 능가하는 결과를 제시합니다. Pairwise-J1 대 Pointwise-J1 모델, 오프라인 대 온라인 학습, 보상 전략, 시드 프롬프트, 사고 길이 및 내용의 변화 등 다양한 요소들을 비교 분석하여 모델이 평가 기준을 제시하고, 자체 생성 참조 답변과 비교하고, 모델 응답의 정확성을 재평가함으로써 더 나은 판단을 내리는 것을 확인했습니다.

시사점, 한계점

시사점:
LLM 기반 평가 모델의 성능 향상을 위한 효과적인 강화 학습 기법 J1 제시.
기존 최고 성능 모델들을 능가하는 성능 달성.
모델의 사고 과정 분석을 통해 더 나은 판단을 내리는 메커니즘 규명.
다양한 하이퍼파라미터 및 학습 전략에 대한 비교 분석을 통한 최적의 설정 제시.
한계점:
J1의 성능이 특정 벤치마크에 국한될 가능성 존재.
더욱 다양하고 복잡한 평가 과제에 대한 일반화 성능 검증 필요.
J1의 학습 과정 및 모델 구조에 대한 상세한 설명 부족.
보상 전략의 설계 및 최적화에 대한 추가 연구 필요.
👍