Bài báo này đánh giá toàn diện việc sử dụng Vision Transformers (ViTs) trong phát hiện bệnh cây trồng. ViTs, ra đời nhằm khắc phục những hạn chế của phương pháp kiểm tra thủ công truyền thống và các kỹ thuật học máy hiện có, thể hiện sự vượt trội trong xử lý phụ thuộc từ xa và khả năng mở rộng. Bài báo này trình bày kiến trúc cơ bản của ViTs, quá trình chuyển đổi từ NLP sang thị giác máy tính, phân tích so sánh với CNN, các mô hình lai và kỹ thuật nâng cao hiệu suất, các thách thức và giải pháp kỹ thuật như yêu cầu dữ liệu, chi phí tính toán, khả năng diễn giải mô hình, và các hướng nghiên cứu trong tương lai. Bằng cách phân tích các bài báo nghiên cứu gần đây, chúng tôi đề cập đến các phương pháp luận, bộ dữ liệu và số liệu hiệu suất chính, đồng thời thảo luận sâu về tác động và triển vọng của ViTs đối với nông nghiệp thông minh/chính xác.