每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

基于语言编码门控策略网络的多任务强化学习

Created by
  • Haebom

作者

拉什夫·阿罗拉

大纲

多任务强化学习通常依赖于任务元数据(例如自然语言描述)来实现各种目标。本文提出了词汇策略网络(LEXPOL),这是一种用于多任务强化学习的语言条件混合策略架构。LEXPOL 使用文本编码器对任务元数据进行编码,并使用学习到的门控模块来选择或混合多个子策略,从而实现跨任务的端到端学习。在 MetaWorld 基准测试中,LEXPOL 在成功率和采样效率方面达到甚至超越了稳健的多任务基准,而无需针对特定任务进行重新训练。此外,我们研究了独立于门控获得的固定专家策略设置,并证明学习到的语言门控能够将这些专家策略结合起来,生成适用于新型任务描述和未知任务组合的行为。这些结果表明,自然语言元数据可以在单个策略中有效地索引和重组可复用技术。

Takeaways, Limitations

Takeaways:
LEXPOL 通过利用自然语言元数据在多任务 RL 中取得了成功的结果。
我们实现了超越强大基线的性能,而无需针对特定任务进行再训练。
展示了有效结合可重用技术的能力。
Limitations:
Limitations,正如论文中所述,并未提出(仅从摘要中未知)。
👍