본 논문은 기계 학습 모델의 성능을 평가할 때 지구상의 모든 샘플에 대한 평균 손실을 기반으로 하는 기존 방식을 비판하며, 인간 개발 및 지리적 분포의 비균일성을 고려하지 못하는 문제를 지적합니다. 이를 해결하기 위해, 지리 공간 그리드포인트와 관련된 다양한 속성(영토, 하위 지역, 소득, 토지 피복)별로 계층화된 예측 성능을 분석하는 'Stratified Assessments of Forecasts over Earth (SAFE)' 패키지를 소개합니다. SAFE는 다양한 데이터 도메인을 통합하여 각 속성의 개별 계층에 대한 모델 성능을 검사할 수 있게 해줍니다. 최첨단 AI 기반 날씨 예측 모델을 벤치마킹한 결과, 모든 모델이 각 속성에 걸쳐 예측 능력의 불균형을 보였으며, 이를 통해 모델 예측 공정성 벤치마크를 구축했습니다. SAFE 패키지는 오픈 소스로 제공됩니다.