Bài báo này nhấn mạnh rằng việc tăng kích thước mô hình là một yếu tố quan trọng trong việc cải thiện hiệu suất trong học tăng cường sâu dựa trên hình ảnh, và trình bày nghiên cứu để cải thiện Impala-CNN hiện có (bộ mã hóa hình ảnh 15 lớp dựa trên ResNet). Thay vì làm phẳng bản đồ đặc trưng đầu ra của Impala-CNN, chúng tôi đề xuất Impoola-CNN, sử dụng phương pháp gộp trung bình toàn cục. Chúng tôi chứng minh bằng thực nghiệm rằng Impoola-CNN vượt trội hơn các mô hình hiện có, đặc biệt là về mặt tổng quát hóa, trên chuẩn Procgen. Sự cải thiện hiệu suất này đặc biệt rõ rệt trong các trò chơi không có quan sát lấy tác nhân làm trung tâm, và chúng tôi suy đoán rằng điều này liên quan đến việc giảm độ nhạy của mạng đối với các phép biến đổi. Tóm lại, chúng tôi nhấn mạnh tầm quan trọng của việc thiết kế mạng hiệu quả, chứ không chỉ đơn thuần là tăng kích thước mô hình.