Este artículo examina la aplicación de los Transformadores de Visión (ViTs) a la agricultura de precisión. Proponemos aprovechar las ventajas de los ViTs (mejor gestión de dependencias a larga distancia y mayor escalabilidad para tareas visuales) para superar las limitaciones de escalabilidad y precisión de los métodos tradicionales (inspección manual y aprendizaje automático tradicional). Abarcamos exhaustivamente la arquitectura básica de los ViTs, su transición del procesamiento del lenguaje natural (PLN) a la visión artificial, el análisis comparativo con CNN, los modelos híbridos y las mejoras de rendimiento, los desafíos técnicos como los requisitos de datos, los requisitos computacionales y la interpretabilidad de los modelos, así como las posibles soluciones. Revisamos la literatura de investigación reciente y sugerimos futuras líneas de investigación y avances tecnológicos para destacar el potencial de los ViTs para transformar la agricultura inteligente y de precisión.