每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

STORI:随机环境的基准和分类法

Created by
  • Haebom

作者

Aryan Amit Barsainyan、Jing Yu Lim、Dianbo Liu

大纲

强化学习 (RL) 技术在 Atari100k 等模拟基准测试中取得了令人瞩目的表现,但近期进展主要局限于模拟环境,限制了其向现实环境的迁移。环境随机性是其关键障碍。现实世界系统通常包含噪声观测、不可预测的动态变化以及会损害现有方法稳定性的异常条件。能够捕捉这种不确定性的基准测试非常少见,因此更倾向于简化的设置,以便调整算法以获得成功。缺乏明确的随机性分类法进一步加剧了评估的复杂性。为了弥补这一关键缺陷,我们引入了 STORI (STOchastic-ataRI),这是一个系统地整合各种随机效应的基准测试,能够在各种不确定性条件下对强化学习技术进行严格的评估。我们提出了五种环境随机性的综合分类法,并通过对 DreamerV3 和 STORM 进行针对性评估,揭示了当前最先进的基于模型的强化学习算法中的系统性漏洞。我们的研究结果表明,世界模型严重低估了环境方差,难以应对行动腐败,并且在部分观察下表现出不可靠的动态。该模型为开发更强大的强化学习系统提供了一个统一的框架,其代码和基准测试已公开发布。

Takeaways, Limitations

Takeaways:
STORI 基准的引入系统地结合了环境概率,为评估强化学习算法在现实环境中的稳健性提供了一个框架。
提出了一种全面的五类环境不确定性分类法。
我们表明,最先进的基于模型的 RL 算法(例如 DreamerV3 和 STORM)容易受到环境不确定性的影响。
我们发现世界模型低估了环境方差,容易受到行动腐败的影响,并且在部分观察下表现出不可靠的动态。
Limitations:
本文并未直接提及 STORM 基准测试的 Limitations。(然而,这可能是由于基准测试本身或其开发过程的固有限制,例如其仅限于模拟环境或仅适用于特定算法。)
可能缺乏对 DreamerV3 和 STORM 之外的算法的广泛评估。
研究结果可能局限于某一特定算法,不一定能推广到其他算法。
👍