この論文では、ビジョントランス(ViTs)を精密農業に適用することを検討します。従来の方法(手動検査と既存の機械学習)のスケーラビリティと正確さの限界を克服するために、ViTの利点(長距離依存性処理の改善と視覚的作業のスケーラビリティの向上)を活用することを提案します。 ViTの基本アーキテクチャ、自然言語処理(NLP)からコンピュータビジョンへの移行、CNNとの比較分析、ハイブリッドモデルとパフォーマンスの向上、データ要件、計算要件、モデル解析の可能性などの技術的課題と潜在的な解決策などを網羅しています。最近の研究文献を検討し、将来の研究方向と技術の発展を提示し、ViTがスマート農業と精密農業を変える可能性を強調します。