Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

The Good, the Bad and the Constructive: Automatically Measuring Peer Review's Utility for Authors

Created by
  • Haebom

作者

Abdelrahman Sadallah, Tim Baumg artner, Iryna Gurevych, Ted Briscoe

概要

この論文は、ピアレビューで著者に有用なフィードバックを提供するための自動化システムの開発を目的としています。レビューアの時間不足の問題を解決するために、レビューの有用性を高める4つの重要な側面(実行可能性、根拠と具体性、検証可能性、有用性)を紹介します。これらの側面を評価し、モデル開発を可能にするために、1,430人の人間がラベル付けしたレビューコメントと10,000の合成ラベルデータを含むRevUtilデータセットを紹介します。合成データには、各サイドスコアの説明である根拠も含まれています。 RevUtilデータセットを使用して、その側面を評価し、根拠を作成する微調整モデルをベンチマークします。実験の結果、微調整されたモデルは、GPT-4oのような強力な閉鎖モデルに似ているか、または場合によっては上回るレベルの人間との一致率を達成します。しかし、マシンが作成したレビューは、4つの点で一般的に人間のレビューよりもパフォーマンスが低下することを示しています。

Takeaways、Limitations

Takeaways:
レビューの有用性を評価する4つの重要な側面(Actionability、Grounding & Specificity、Verifiability、Helpfulness)を提示し、自動化ピアレビューシステムの開発に貢献します。
RevUtilデータセットを提供することで、関連研究の発展に貢献。
微調整されたモデルが人間レベルのパフォーマンスを達成できることを示しています。
Limitations:
合成データを使用してモデルをトレーニングしたので、実際のデータの一般化性能を検証する必要があります。
機械が作成したレビューが人間のレビューよりも性能が劣る理由の詳細な分析が不足しています。
4つの側面に加えて、他の重要な側面が存在する可能性があります。
👍