この論文では、ユーザーの好みと目的に合わせて、ラージ言語モデル(LLM)の応答をパーソナライズする新しいフレームワークであるPLUS(Preference Learning Using Summarization)を紹介します。従来のReinforcement Learning from Human Feedback(RLHF)は、すべてのユーザーを単一の報酬モデルとして学習し、ユーザー間のボラティリティを考慮することができないという制限がありました。この要約は、報酬モデルを条件化し、各ユーザーが重視する応答タイプのパーソナライズされた予測を可能にします。強化学習により、ユーザー要約モデルを学習し、報酬モデルを同時に更新するオンライン共同適応ループを作成します。さまざまなユーザーデータセットでは、PLUSは新しいユーザーとさまざまな会話トピックについて堅牢であり、生成されたユーザーの要約がGPT-4などの強力な独占モデルのゼロショットパーソナライゼーションに移行できることを示しています。その結果、生成されたユーザーの要約は簡潔でポータブルであるだけでなく、ユーザーが簡単に解釈および変更できるため、LLMソートの透明性とユーザーコントロールが向上します。