多任务强化学习通常依赖于任务元数据(例如自然语言描述)来实现各种目标。本文提出了词汇策略网络(LEXPOL),这是一种用于多任务强化学习的语言条件混合策略架构。LEXPOL 使用文本编码器对任务元数据进行编码,并使用学习到的门控模块来选择或混合多个子策略,从而实现跨任务的端到端学习。在 MetaWorld 基准测试中,LEXPOL 在成功率和采样效率方面达到甚至超越了稳健的多任务基准,而无需针对特定任务进行重新训练。此外,我们研究了独立于门控获得的固定专家策略设置,并证明学习到的语言门控能够将这些专家策略结合起来,生成适用于新型任务描述和未知任务组合的行为。这些结果表明,自然语言元数据可以在单个策略中有效地索引和重组可复用技术。