본 논문은 기존의 오프라인 강화학습(Offline RL) 벤치마크의 한계를 지적하고, 실제 세계의 어려움을 반영한 확장된 벤치마크 NeoRL-2를 제시합니다. NeoRL-2는 7개의 시뮬레이션된 작업으로부터 얻은 7개의 데이터셋과 해당 평가 시뮬레이터로 구성됩니다. 실제 환경 데이터의 보수적인 분포, 높은 지연 시간으로 인한 지연된 행동 효과, 통제할 수 없는 전이 변동성으로 인한 외부 요인, 그리고 의사 결정 과정 중 평가하기 어려운 전반적인 안전 제약 등의 실제 세계 문제점들을 고려하여 설계되었습니다. 최첨단 오프라인 강화학습 기법들을 NeoRL-2에 적용한 결과, 기존 방법들이 데이터 수집 행동 정책을 능가하는 데 어려움을 겪는다는 것을 보여주며, 실제 세계 적용을 위한 더욱 효과적인 방법의 필요성을 강조합니다.