본 논문은 비전 트랜스포머(ViTs)를 정밀 농업에 적용하는 것을 검토합니다. 전통적인 방법(수동 검사 및 기존 기계 학습)의 확장성 및 정확성의 한계를 극복하기 위해 ViT의 장점(장거리 의존성 처리 개선 및 시각적 작업에 대한 확장성 향상)을 활용하는 것을 제시합니다. ViT의 기본 아키텍처, 자연어 처리(NLP)에서 컴퓨터 비전으로의 전환, CNN과의 비교 분석, 하이브리드 모델 및 성능 향상, 데이터 요구 사항, 계산 요구 사항, 모델 해석 가능성과 같은 기술적 과제 및 잠재적인 해결책 등을 포괄적으로 다룹니다. 최근 연구 문헌을 검토하고, 미래 연구 방향과 기술 발전을 제시하여 ViT가 스마트 농업 및 정밀 농업을 변화시킬 수 있는 잠재력을 강조합니다.