본 논문은 인공지능(AI) 기반 기상 예측 모델이 기존 수치예보 시스템을 능가하지만, 전례 없는 극한 기상 현상 예측에는 여전히 한계가 있음을 보여줍니다. 유럽 중기 예보 센터의 고해상도 예보 모델(HRES)이 GraphCast, Pangu-Weather, Fuxi 등 최첨단 AI 모델들보다 기록적인 극한 기상 현상 예측에서 일관되게 우수한 성능을 보였습니다. AI 모델들은 기록적인 폭염, 한파, 강풍에 대한 예측 오차가 HRES보다 크며, 기록 갱신 정도가 클수록 오차가 증가하는 경향을 보였습니다. 특히, 기록적인 폭염은 과소평가하고, 한파는 과대평가하는 경향이 있습니다. 따라서 AI 기상 모델은 훈련 데이터 영역을 벗어난 외삽과 잠재적으로 가장 큰 영향을 미치는 기록적인 기상 현상 예측에 한계를 가지고 있습니다. 조기 경보 시스템 및 재난 관리와 같은 고위험 응용 분야에 AI 모델을 단독으로 사용하기 전에 더욱 엄격한 검증과 모델 개발이 필요합니다.