この論文は、ピアレビューで著者に有用なフィードバックを提供するための自動化システムの開発を目的としています。レビューアの時間不足の問題を解決するために、レビューの有用性を高める4つの重要な側面(実行可能性、根拠と具体性、検証可能性、有用性)を紹介します。これらの側面を評価し、モデル開発を可能にするために、1,430人の人間がラベル付けしたレビューコメントと10,000の合成ラベルデータを含むRevUtilデータセットを紹介します。合成データには、各サイドスコアの説明である根拠も含まれています。 RevUtilデータセットを使用して、その側面を評価し、根拠を作成する微調整モデルをベンチマークします。実験の結果、微調整されたモデルは、GPT-4oのような強力な閉鎖モデルに似ているか、または場合によっては上回るレベルの人間との一致率を達成します。しかし、マシンが作成したレビューは、4つの点で一般的に人間のレビューよりもパフォーマンスが低下することを示しています。