強化学習(RL)技術はAtari100kのようなシミュレーションベンチマークで印象的な性能を収めましたが、最近の発展は主にシミュレーションに限られており、実際の環境への移行が制限されています。主な障害物は環境的確率であり、実際のシステムは騒々しい観察、予測不可能な力学、および現在の方法の安定性を阻害する異常な条件を含む。この不確実性を捉えるベンチマークはまれであり、アルゴリズムが成功するように調整できる単純化された設定を好む。確率性の明確に定義された分類法の欠如は、評価をより複雑にします。この重要なギャップを解決するために、STORI(STOchastic-ataRI)を導入します。 STORIは、さまざまな確率的効果を体系的に統合し、さまざまな形態の不確実性の下でRL技術の厳格な評価を可能にするベンチマークです。環境確率の包括的な5種類の分類法を提案し、DreamerV3とSTORMのターゲット評価を通じて、最先端のモデルベースのRLアルゴリズムの体系的な脆弱性を示しています。研究結果によると、世界モデルは環境分散を深刻に過小評価し、アクションの損傷に困難を経験し、部分的な観察の下で信頼できない力学を示しています。より堅牢なRLシステム開発のための統合フレームワークを提供し、コードとベンチマークは公にリリースされました。