Este artículo revisa exhaustivamente el uso de los Transformadores de Visión (ViTs) en la detección de enfermedades vegetales. Los ViTs, surgidos para superar las limitaciones de la inspección manual convencional y las técnicas de aprendizaje automático existentes, demuestran superioridad en el procesamiento de dependencias a larga distancia y la escalabilidad. Este artículo presenta la arquitectura básica de los ViTs, la transición del PLN a la visión artificial, un análisis comparativo con las CNN, modelos híbridos y técnicas de mejora del rendimiento, desafíos técnicos y soluciones como los requisitos de datos, los costes computacionales y la interpretabilidad de los modelos, y futuras líneas de investigación. Mediante el análisis de artículos de investigación recientes, abarcamos metodologías clave, conjuntos de datos y métricas de rendimiento, y ofrecemos un análisis exhaustivo del impacto y las perspectivas de los ViTs en la agricultura inteligente y de precisión.