每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

不同数据损坏下​​离线到在线强化学习的稳健策略扩展

Created by
  • Haebom

作者

何龙翔、叶德恒、谭俊波、王学谦、申力

大纲

离线到在线强化学习 (O2O RL) 是一种极具潜力的实践范例,它基于离线数据预训练策略,并通过在线交互进行微调。然而,现实环境中的离线数据和在线交互通常存在噪声或被恶意破坏,这可能会降低 O2O RL 的性能。本研究提出了一种名为鲁棒策略扩展 (RPEX) 的新方法,该方法通过将逆概率加权 (IPW) 引入在线搜索策略来缓解重尾效应。基于 D4RL 数据集的大量实验结果表明,RPEX 在各种数据损坏场景下均能达到最佳的 O2O 性能。

Takeaways,Limitations

Takeaways:
提出了一种新方法来提高数据损坏环境中 O2O RL 的性能。
使用 IPW 解决政策的重尾行为问题。
RPEX 是一种实现 SOTA 性能的简单而有效的方法。
Limitations:
需要进一步分析以确定基于特定数据损坏类型和严重程度的性能变化。
有必要验证 RPEX 在实际环境中的通用性和稳定性。
需要对 RPEX 的超参数调整进行详细研究。
👍