强化学习 (RL) 技术在 Atari100k 等模拟基准测试中取得了令人瞩目的表现,但近期进展主要局限于模拟环境,限制了其向现实环境的迁移。环境随机性是其关键障碍。现实世界系统通常包含噪声观测、不可预测的动态变化以及会损害现有方法稳定性的异常条件。能够捕捉这种不确定性的基准测试非常少见,因此更倾向于简化的设置,以便调整算法以获得成功。缺乏明确的随机性分类法进一步加剧了评估的复杂性。为了弥补这一关键缺陷,我们引入了 STORI (STOchastic-ataRI),这是一个系统地整合各种随机效应的基准测试,能够在各种不确定性条件下对强化学习技术进行严格的评估。我们提出了五种环境随机性的综合分类法,并通过对 DreamerV3 和 STORM 进行针对性评估,揭示了当前最先进的基于模型的强化学习算法中的系统性漏洞。我们的研究结果表明,世界模型严重低估了环境方差,难以应对行动腐败,并且在部分观察下表现出不可靠的动态。该模型为开发更强大的强化学习系统提供了一个统一的框架,其代码和基准测试已公开发布。