Cet article propose une nouvelle approche qui exploite l'analyse au niveau du pixel et l'apprentissage multi-instances pour surmonter les limites des méthodes d'agrégation spatiale existantes au niveau du comté afin de prédire les rendements du maïs aux États-Unis. Plus précisément, nous appliquons un mécanisme d'attention pour attribuer automatiquement des pondérations spécifiques aux pixels afin d'atténuer les effets du bruit, résolvant ainsi le problème des pixels mixtes causés par les incohérences de résolution entre les images satellite et les masques de culture. Les résultats expérimentaux démontrent que notre approche surpasse quatre modèles d'apprentissage automatique existants basés sur cinq années de données de la Corn Belt américaine, atteignant un coefficient de détermination (R²) de 0,84 et une erreur quadratique moyenne (RMSE) de 0,83 en 2022. Nous démontrons les avantages de notre approche tant d'un point de vue spatial que temporel, et nous vérifions sa capacité à éliminer le bruit et à capturer des informations caractéristiques importantes en analysant la relation entre les pixels mixtes et le mécanisme d'attention.