Bài báo này xem xét ứng dụng của Vision Transformers (ViTs) trong nông nghiệp chính xác. Chúng tôi đề xuất tận dụng những điểm mạnh của ViTs (cải thiện khả năng xử lý các mối quan hệ phụ thuộc từ xa và cải thiện khả năng mở rộng cho các tác vụ thị giác) để khắc phục những hạn chế về khả năng mở rộng và độ chính xác của các phương pháp truyền thống (kiểm tra thủ công và học máy truyền thống). Chúng tôi trình bày toàn diện về kiến trúc cơ bản của ViTs, quá trình chuyển đổi từ xử lý ngôn ngữ tự nhiên (NLP) sang thị giác máy tính, phân tích so sánh với CNN, các mô hình lai và cải tiến hiệu suất, các thách thức kỹ thuật như yêu cầu dữ liệu, yêu cầu tính toán và khả năng diễn giải mô hình, cũng như các giải pháp tiềm năng. Chúng tôi xem xét các tài liệu nghiên cứu gần đây và đề xuất các hướng nghiên cứu trong tương lai và những tiến bộ công nghệ để làm nổi bật tiềm năng của ViTs trong việc chuyển đổi nông nghiệp thông minh và chính xác.