Este artículo propone un enfoque novedoso que aprovecha el análisis a nivel de píxel y el aprendizaje de múltiples instancias para superar las limitaciones de los métodos de agregación espacial a nivel de condado existentes para predecir el rendimiento del maíz en EE. UU. Específicamente, aplicamos un mecanismo de atención para asignar automáticamente ponderaciones específicas por píxel y mitigar los efectos del ruido, abordando así el problema de los píxeles mixtos causados por desajustes de resolución entre las imágenes satelitales y las máscaras de cultivo. Los resultados experimentales demuestran que nuestro enfoque propuesto supera a cuatro modelos de aprendizaje automático existentes basados en cinco años de datos del Cinturón de Maíz de EE. UU., logrando un coeficiente de determinación (R²) de 0,84 y un error cuadrático medio (RMSE) de 0,83 en 2022. Demostramos las ventajas de nuestro enfoque desde perspectivas tanto espaciales como temporales, y verificamos su capacidad para eliminar el ruido y capturar información importante sobre las características mediante el análisis de la relación entre los píxeles mixtos y el mecanismo de atención.