本研究探讨了基于用户交互历史的持续推荐模型。现有模型会整合商品描述、用户意图或偏好等信息,但用户偏好通常并非明确给出,因此需要使用大规模语言模型 (LLM) 等工具进行估算。这些方法仅利用训练期间估计的用户偏好,并仅依赖过去的交互历史进行推荐,这限制了它们动态适应不断变化的偏好的能力。为了解决这个问题,本研究提出了一种名为“偏好辨别”的新范式,其中生成式推荐模型在特定语境下,以自然语言明确地限定用户偏好。此外,我们使用一个涵盖多种场景(包括偏好操纵和情绪跟随)的新基准来评估偏好辨别能力。通过在该基准上评估最先进的方法,我们发现现有方法在动态适应不断变化的用户偏好方面存在局限性。为了解决这个问题,我们提出了一种名为 Mender(多模态偏好辨别器)的新方法,该方法在新的基准上取得了最先进的性能。 Mender 提供了一种更灵活的推荐模型,它可以根据人类偏好有效地调整推荐,即使在训练期间没有观察到这些偏好。