Este artículo destaca que aumentar el tamaño del modelo es un factor crítico para mejorar el rendimiento en el aprendizaje de refuerzo profundo basado en imágenes y presenta una investigación para mejorar el Impala-CNN (un codificador de imágenes de 15 capas basado en ResNet). En lugar de aplanar el mapa de características de salida de Impala-CNN, proponemos Impoola-CNN, que utiliza la agrupación de promedios globales. Demostramos experimentalmente que Impoola-CNN supera a los modelos existentes, especialmente en generalización, en el benchmark Procgen. Esta mejora del rendimiento es especialmente pronunciada en juegos sin observación centrada en el agente, y especulamos que está relacionada con la menor sensibilidad de la red a las transformaciones. En conclusión, enfatizamos la importancia de un diseño de red eficiente, no solo de aumentar el tamaño del modelo.