본 논문은 다목적 강화 학습(REMOR)으로 훈련된 추론 LLM이 AI 기반 동료 검토 시스템의 한계(피상적이고 과도한 칭찬)를 극복하는 정도를 평가한다. 인간 평가와 일치하는 다면적 보상 함수(검토 자체의 비판, 참신성 및 원고와의 관련성 등)를 설계하고, 고품질 AI 학회 검토 데이터셋(PeerRT)을 사용하여 DeepSeek-R1-Distill-Qwen-7B 모델을 LoRA로 미세 조정한다. 그 후, GRPO를 적용하여 인간 정렬 보상(REMOR-H)과 균일 보상(REMOR-U)을 사용하는 두 모델을 훈련한다. 흥미롭게도, 인간 정렬 보상은 일반적으로 강한 검토와 관련된 측면에 페널티를 부과하여 REMOR-U가 질적으로 더 실질적인 피드백을 생성하게 한다. 실험 결과, REMOR-U와 REMOR-H는 인간 검토, 비추론 최첨단 AI 검토 시스템 및 일반적인 상용 LLM 기준 모델보다 평균 보상을 두 배 이상 달성하며, 최고의 AI 및 인간 검토는 질적으로 비슷하지만 REMOR는 낮은 질의 인간 검토의 긴 꼬리를 피한다는 것을 보여준다. 추론이 이러한 개선에 중요한 역할을 한다는 점을 논의하며, 인간 정렬 동료 검토 보상 함수(HPRR), PeerRT 데이터셋, REMOR 모델을 공개한다.