강화 학습(RL) 기법은 Atari100k와 같은 시뮬레이션 벤치마크에서 인상적인 성능을 거두었지만, 최근 발전은 주로 시뮬레이션에 국한되어 실제 환경으로의 이전이 제한적이다. 주요 장애물은 환경적 확률성으로, 실제 시스템은 시끄러운 관찰, 예측 불가능한 역학, 그리고 현재 방법의 안정성을 저해하는 비정상적인 조건을 포함한다. 이러한 불확실성을 포착하는 벤치마크는 드물며 알고리즘이 성공하도록 조정될 수 있는 단순화된 설정을 선호한다. 확률성의 잘 정의된 분류법 부재는 평가를 더욱 복잡하게 만든다. 이러한 중요한 격차를 해결하기 위해, STORI(STOchastic-ataRI)를 도입한다. STORI는 다양한 확률적 효과를 체계적으로 통합하고 다양한 형태의 불확실성 하에서 RL 기법의 엄격한 평가를 가능하게 하는 벤치마크이다. 환경적 확률성의 포괄적인 5가지 유형의 분류법을 제안하고, DreamerV3 및 STORM의 표적 평가를 통해 최첨단 모델 기반 RL 알고리즘의 체계적인 취약성을 보여준다. 연구 결과에 따르면 세계 모델은 환경 분산을 심각하게 과소평가하고, 액션 손상에 어려움을 겪으며, 부분 관찰 하에서 신뢰할 수 없는 역학을 보인다. 더 견고한 RL 시스템 개발을 위한 통합 프레임워크를 제공하며 코드와 벤치마크는 공개적으로 출시되었다.