每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

MTRec:通过心理奖励模型学习与用户偏好保持一致

Created by
  • Haebom

作者

赵梦晨、高一凡、侯亚庆、李向阳、顾鹏杰、董振华、唐瑞明、蔡毅

大纲

本文提出了一种新颖的序列推荐框架——MTRec,该框架克服了隐式反馈的局限性,并通过识别用户的真实偏好来提升推荐系统的性能。MTRec引入了一个量化用户满意度的心理奖励模型,并使用分布式逆向强化学习对其进行训练。学习到的心理奖励模型能够引导推荐模型更好地匹配用户的真实偏好。实验结果及在真实短视频平台上的应用证明了MTRec的有效性。

Takeaways, Limitations

Takeaways:
我们提出了一个新颖的框架,通过解决隐式反馈问题来提高推荐系统的性能。
引入量化用户满意度并利用分布式逆向强化学习的心理奖励模型。
通过在实际工业环境中的应用证明实用性。
当应用于各种推荐模型时,它表现出持续的性能改进。
Limitations:
依赖于心理奖励模型的准确性。
训练和应用模型所需的计算成本。
需要进一步研究来确定实验结果对特定平台(短视频)的普遍性。
👍