この論文は、AIによって生成されたテキストの品質評価と改善に焦点を当てています。 AI生成テキストの量が急増するにつれて、文法的な正確さと一貫性を超えて、テキストの「質」を評価し改善することが重要になりました。研究者は5つの既存のデータセットを統合し、4,729の書き込み品質判断で構成されたWriting Quality Benchmark(WQ)を提示します。従来の最先端LLMを含むいくつかの基準モデルは、WQのランダム基準よりも性能が著しく優れていないことを示しています。これにより、研究者はさまざまなサイズのWriting Quality Reward Models(WQRM)を訓練して執筆品質評価を行い、4つの分布外テストセットで強力な一般化性能とWQベンチマークで74%の精度を達成しました。さらに、WQRMを活用して候補修正を生成し、ランク付けすることにより、初期のドラフトよりも質の高い出力を選択できることを示しています。 9人の専門家を対象とした人の評価の結果、WQRMベースの選択は全体で66%、報酬差が1点以上の場合72.2%の割合で専門家が好む執筆サンプルを生成しました。研究者はデータセットとモデルを公開し、AI執筆システムの発展に貢献したいと考えています。