HASARD는 안전한 강화학습(RL) 에이전트의 시각 기반 3D 환경 내 탐색 능력을 평가하기 위한 새로운 벤치마크입니다. 기존 벤치마크의 단순한 탐색 과제를 넘어, 전략적 의사결정, 공간 관계 이해, 단기 미래 예측 등 복잡한 과제들을 포함합니다. Doom 게임 엔진을 기반으로 하며, 세 가지 난이도와 두 가지 행동 공간을 제공합니다. 다양한 기준 방법들의 실험적 평가를 통해 벤치마크의 복잡성, 고유한 과제, 그리고 보상-비용 간의 절충점을 보여줍니다. 에이전트의 학습 과정을 시각화하기 위해 상위-하향식 히트맵을 활용하며, 난이도별 점진적 학습을 통해 암묵적 학습 커리큘럼을 제공합니다. 주로 시점 기반 시각 학습에 초점을 맞춘 최초의 안전한 RL 벤치마크이며, 비용 효율적이고 통찰력 있는 방식으로 현재 및 미래의 안전한 RL 방법의 잠재력과 한계를 탐구할 수 있도록 합니다. 소스 코드는 공개되어 있습니다.