본 논문은 Forgetting Transformer (FoX)의 효율성을 개선하기 위해 Adaptive Computation Pruning (ACP) 기법을 제안합니다. FoX는 softmax attention에 forget gate를 도입하여 기존 Transformer보다 성능이 향상되었지만, 많은 attention head가 빠르게 정보를 잊어버리는 경향이 있습니다. ACP는 forget gate에 의해 강하게 감쇠된 입출력 의존성을 포함하는 계산을 동적으로 제거하여 이 문제를 해결합니다. 실험 결과, ACP는 다양한 모델 크기와 문맥 길이에서 softmax attention의 FLOPs를 약 70% 감소시키고, 훈련 처리량을 약 10%~35% 향상시키는 것으로 나타났습니다. 특히 긴 문맥 길이에서 더 큰 계산량 절감 효과를 보였으며, 성능 저하 없이 속도 향상을 달성했습니다.