Cet article souligne que l'augmentation de la taille du modèle est un facteur critique pour améliorer les performances de l'apprentissage par renforcement profond basé sur l'image, et présente des recherches visant à améliorer l'Impala-CNN existant (un encodeur d'images basé sur ResNet à 15 couches). Au lieu d'aplatir la carte des caractéristiques de sortie d'Impala-CNN, nous proposons Impoola-CNN, qui utilise le regroupement des moyennes globales. Nous démontrons expérimentalement qu'Impoola-CNN surpasse les modèles existants, notamment en généralisation, sur le benchmark Procgen. Cette amélioration des performances est particulièrement marquée dans les jeux sans observation centrée sur l'agent, et nous supposons qu'elle est liée à la sensibilité réduite du réseau aux transformations. En conclusion, nous soulignons l'importance d'une conception efficace du réseau, et pas seulement de l'augmentation de la taille du modèle.