ARF(Adaptive Reward-Following)は、自然言語フィードバックを連続した好み軌跡に変換し、TraceBiasアルゴリズムを使用して最適化する新しいReinforcement Learning from Human Feedback(RLHF)方法論です。従来のPPOやDPOなどの方法は、バイナリラベルに依存する制限を克服し、さまざまなLLMおよび優先ドメインでPPOおよびDPOよりも最大7.6%向上したパフォーマンスを示しました。 ARFは、パーソナライズされ理論的に裏付けられているRLHFのためのスケーラブルな経路を提示します。