본 논문은 식물 질병 탐지에 있어 Vision Transformers (ViTs)의 활용을 종합적으로 검토한 연구입니다. 기존의 수동 검사 및 기존 기계 학습 기법의 한계를 극복하기 위해 등장한 ViTs는 장거리 의존성 처리 및 확장성 측면에서 우수성을 보입니다. 논문에서는 ViTs의 기본 구조, NLP에서 컴퓨터 비전으로의 전환 과정, CNN과의 비교 분석, 하이브리드 모델 및 성능 향상 기법, 데이터 요구사항, 계산 비용, 모델 해석성과 같은 기술적 과제 및 해결 방안, 그리고 미래 연구 방향을 제시합니다. 최신 연구 논문들을 분석하여 주요 방법론, 데이터셋, 성능 지표를 다루며, ViTs가 스마트/정밀 농업에 미치는 영향과 전망을 심도 있게 논의합니다.