Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RLMR: Reinforcement Learning with Mixed Rewards for Creative Writing

Created by
  • Haebom

作者

Jianxing Liao, Tian Zhang, Xiao Feng, Yusong Zhang, Rui Yang, Haorui Wang, Bosi Wen, Ziying Wang, Runzhi Shi

概要

本論文では、大規模な言語モデルを活用した創作執筆における主観的な文章の質(文学性、感情表現など)と客観的な制約の遵守(形式要件、単語数の制限など)とのバランスをとる問題を解決するための強化学習基盤の新しい方法であるReinforcement Learning with Mixed Rewards(RLMR)を提案します。 RLMRは、主観的な執筆品質を評価する執筆報酬モデルと、客観的な制約に準拠しているかどうかを評価する制約検証モデルから動的に混合された補償システムを利用します。具体的には、サンプリングされたグループ内の書き込み品質に応じて、制約に準拠した補償の重みを動的に調整し、制約に違反するサンプルがトレーニング中に不利益になるようにします。 8B〜72Bパラメータのさまざまなモデルファミリの自動および手動評価と、実際の書き込みベンチマークであるWriteEvalを使用して実験を行いました。

Takeaways、Limitations

Takeaways:
主観的な好みと客観的な検証をオンライン強化学習訓練に組み合わせた最初の研究です。
多次元創作書き込みの最適化に効果的なソリューションを提供します。
命令コンプライアンスと書き込み品質の両方でパフォーマンスが向上します。 (IFEval 83.36%→86.65%、WriteEvalマニュアルエキスパートペア評価で72.75%の勝率)
Limitations:
提案された方法の一般化性能に関するさらなる研究が必要です。
WriteEvalを含む評価ベンチマークの範囲をさらに拡大する必要があります。
さまざまな種類のクリエイティブ書き込みの課題に対する適用性をさらに検証する必要があります。
👍