每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

学习从人类反馈中总结用户信息,实现个性化强化学习

Created by
  • Haebom

作者

南贤智、万彦明、Mickel Liu、连建勋、Peter Ahnn、Natasha Jaques

大纲

PLUS(基于摘要的偏好学习)是一个专为 LLM AI 助手个性化响应而开发的全新框架。它克服了基于人类反馈的强化学习 (RLHF) 的局限性,通过总结每个用户的偏好、特征和历史对话,为每个用户生成个性化响应。PLUS 通过一个在线协同适应循环运行,该循环同时训练用户摘要模型和奖励模型。它在新用户和对话主题上表现出色,零样本个性化可与 GPT-4 等模型媲美,并具有灵活的用户情境学习和可解释的用户表征。

Takeaways, Limitations

Takeaways:
提供根据用户偏好定制的个性化 LLM 响应
即使对于新用户和对话主题也具有强大的性能
对最新模型(包括 GPT-4)的零样本个性化支持。
通过学习不同的用户环境来获得灵活性
通过用户表达的可解释性来增强透明度和用户控制。
Limitations:
本文中没有直接提及Limitations。
👍