Cet article examine en détail l'utilisation des transformateurs de vision (ViT) dans la détection des maladies des plantes. Les ViT, apparus pour surmonter les limites de l'inspection manuelle conventionnelle et des techniques d'apprentissage automatique existantes, démontrent leur supériorité en matière de traitement des dépendances à longue distance et d'évolutivité. Cet article présente l'architecture de base des ViT, la transition du TALN à la vision par ordinateur, une analyse comparative avec les CNN, les modèles hybrides et les techniques d'amélioration des performances, les défis et solutions techniques tels que les besoins en données, les coûts de calcul et l'interprétabilité des modèles, ainsi que les futures orientations de recherche. En analysant des articles de recherche récents, nous abordons les méthodologies, les ensembles de données et les indicateurs de performance clés, et proposons une analyse approfondie de l'impact et des perspectives des ViT sur l'agriculture intelligente et de précision.