本論文は、多目的強化学習(REMOR)で訓練された推論LLMが、人間のピアレビューの限界(表面的で過度の賞賛)を克服する程度を評価する。人間評価に合わせて設計された多面的補償関数(レビュー自体の批判、斬新性、レビューと原稿間の関連性)を用いて、DeepSeek-R1-Distill-Qwen-7BモデルをPeerRT(推論過程に富む高品質AI学会レビューデータセット)を用いて微調整し、GRPO報酬)とREMOR-U(均一報酬)の2つのモデルを訓練しました。興味深いことに、人間のアライメント補償は一般に良いレビューに関連する側面にペナルティを与え、REMOR-Uに定性的により実質的なフィードバックを生成させました。その結果、REMOR-UとREMOR-Hは、人間レビュー、非推論最先端AIシステム、一般商用LLM基準モデルよりも平均補償を2倍以上達成し、最高のAIと人間レビューは定性的に似ていますが、REMORは低品質の人間レビューの長い尾を避けることを発見しました.推論がこの改善に重要であり、HPRR(Human-aligned Peer Review Reward)関数、PeerRTデータセット、REMORモデルを公開し、当該分野の発展に寄与しようとする。