Chúng tôi đề xuất Adaptive Computation Pruning (ACP) để cải thiện hiệu suất của Forgetting Transformer (FoX). FoX cải thiện hiệu suất so với Transformer truyền thống bằng cách đưa vào một cổng forget cho sự chú ý softmax, nhưng nhiều người chú ý có xu hướng quên thông tin nhanh chóng. ACP giải quyết vấn đề này bằng cách loại bỏ động các phép tính liên quan đến sự phụ thuộc đầu vào-đầu ra bị suy giảm mạnh bởi cổng forget. Nó thực hiện cắt tỉa một cách an toàn thông qua ngưỡng cắt tỉa được thiết lập động và việc áp dụng ACP cho FoX trong quá trình huấn luyện trước mô hình ngôn ngữ đã giảm FLOP và truy cập bộ nhớ khoảng 70%. Điều này dẫn đến việc giảm 50-70% thời gian thực hiện sự chú ý ( tăng tốc gấp 2-3 lần) và tăng 10-40% thông lượng đào tạo đầu cuối. Tiết kiệm tính toán lớn hơn đối với các ngữ cảnh dài hơn. Chúng tôi đã đạt được tốc độ này mà không ảnh hưởng đến hiệu suất.