본 논문은 다중 목표 강화 학습(REMOR)으로 훈련된 추론 LLM이 인간 피어 리뷰의 한계(피상적이고 과도한 칭찬)를 극복하는 정도를 평가한다. 인간 평가에 맞춰 설계된 다면적 보상 함수(리뷰 자체의 비판, 참신성 및 리뷰와 원고 간의 관련성)를 사용하여 DeepSeek-R1-Distill-Qwen-7B 모델을 PeerRT(추론 과정이 풍부한 고품질 AI 학회 리뷰 데이터셋)를 이용하여 미세 조정하고, GRPO(Group Relative Policy Optimization)를 적용하여 REMOR-H(인간 정렬 보상)와 REMOR-U(균일 보상) 두 모델을 훈련시켰다. 흥미롭게도, 인간 정렬 보상은 일반적으로 좋은 리뷰와 관련된 측면에 페널티를 부여하여 REMOR-U가 질적으로 더 실질적인 피드백을 생성하게 했다. 결과적으로 REMOR-U와 REMOR-H는 인간 리뷰, 비추론 최첨단 AI 시스템, 일반 상용 LLM 기준 모델보다 평균 보상을 두 배 이상 달성했으며, 최고의 AI 및 인간 리뷰는 질적으로 비슷하지만 REMOR는 저품질 인간 리뷰의 긴 꼬리를 피한다는 것을 발견했다. 추론이 이러한 개선에 중요하며, HPRR(Human-aligned Peer Review Reward) 함수, PeerRT 데이터셋, REMOR 모델을 공개하여 해당 분야의 발전에 기여하고자 한다.