미국, 특히 캘리포니아에서 산불의 빈도와 강도가 증가함에 따라 정교한 탐지 기술의 중요성이 강조되고 있습니다. 2023년 산불로 인해 전국적으로 130명이 사망하여 1990년 이후 최고치를 기록했습니다. 2025년 1월 로스앤젤레스 산불(팔리세이즈 및 이튼 산불 포함)로 약 40,000에이커와 12,000채의 건물이 소실되고 인명 피해가 발생했습니다. 이러한 피해는 효과적인 탐지 및 예방 전략의 시급한 필요성을 강조합니다. Vision Transformers (ViTs)와 같은 심층 학습 모델은 복잡한 이미지 데이터를 높은 정확도로 처리하여 조기 탐지를 향상시킬 수 있습니다. 그러나 고품질의 실시간 데이터 확보, 원격 지역의 제한된 센서 적용 범위, 연기 및 구름 덮개와 같은 환경적 요인으로 인한 탐지 방해, 계산 비용이 많이 드는 심층 학습 모델 훈련, 위양성/위음성 및 확장성 문제, 실시간 경고 메커니즘과의 시스템 통합 어려움 등의 과제가 있습니다. 본 연구에서는 '화재'와 '무화재' 클래스로 분류된 10.74GB의 고해상도 이미지로 구성된 산불 데이터 세트를 사용하여 ViT 모델을 훈련했습니다. 데이터 준비를 위해 이미지 크기를 224 x 224픽셀로 조정하고 텐서 형식으로 변환하며 ImageNet 통계를 사용하여 정규화했습니다.