/
/
导向性刺激诱导:助你更好达成目标的方法
Sign In
导向性刺激诱导:助你更好达成目标的方法
定向刺激提示(DSP)是李泽坤团队在2023年发表的论文《Guiding Large Language Models via Directional Stimulus Prompting》中提出的方法。
Guiding Large Language Models via Directional Stimulus Prompting.pdf
1.98MB
定向刺激提示是一个新框架,用于指导大规模语言模型 (LLM) 实现特定的期望结果。该方法不是直接调整 LLM,而是使用一个小型的、可调整的策略模型(例如 T5)为每个输入实例生成辅助定向刺激提示。这些定向刺激提示充当详细的、特定于实例的提示和线索,指导 LLM 产生所需的结果。
真实的例子
•
输入文本:鲍勃·巴克 (Bob Barker) 时隔八年后重返“价格合理”。
•
参考摘要:周三,鲍勃·巴克 (Bob Barker) 接任“价格合理”节目的主持人。巴克于 2007 年从主持人退休。
定向刺激提示:问题:根据上述文章,根据线索用2-3句话简单概括。提示:鲍勃·巴克;电视; 4 月 1 日; “价格合适”;91。
•
模型输出:4 月 1 日 Bob Barker 时隔八年重返电视节目“The Price Is Right”。 91 岁的巴克用动画处理了他的第一个价格猜谜游戏。巴克于 2007 年辞去主持人职务,但仍然没有错过任何一个机会。
你在哪里使用它?
该方法使用监督微调(SFT)使用标记数据来优化策略模型,并使用强化学习(RL)根据LLM的输出来在线或离线优化策略模型。
•
DSP 使用小型、可调节的语言模型(例如强化学习模型)来创建提示或线索,指导法学硕士对所需结果的响应。
•
它提供了比传统微调方法更好的控制,并在保持模型的一般功能的同时指导模型的响应。
实际使用示例:
在客户服务中,DSP 可以通过分析客户投诉并提供快速、准确的解决方案来提高效率并支持人力。
在客户服务情况下,对于“客户抱怨交货延迟”的提示,DSP 可能会生成诸如“道歉、放心、提供解决方案”之类的提示,以便法学硕士会说“我们对交货延迟表示歉意,您的订单现在是优先事项。”它鼓励您制定富有同理心且有益的回应,例如“我们已排名,我们正在采取措施尽快达到目标。”
ⓒ 2023。Haebom,保留所有权利。
经版权所有者许可,可以将其用于商业目的,但需注明来源。
Made with Slashpage