Forgetting Transformer (FoX)의 효율성을 높이기 위한 Adaptive Computation Pruning (ACP) 기법을 제안합니다. FoX는 softmax attention에 forget gate를 도입하여 기존 Transformer보다 성능이 향상되었지만, 많은 어텐션 헤드가 빠르게 정보를 잊어버리는 경향이 있습니다. ACP는 forget gate에 의해 강하게 감쇠되는 입출력 의존성을 포함하는 계산을 동적으로 제거하여 이 문제를 해결합니다. 동적으로 설정되는 pruning threshold를 통해 안전하게 pruning을 수행하며, 언어 모델 사전 학습에서 FoX에 ACP를 적용하여 FLOPs와 메모리 접근 횟수를 약 70% 감소시켰습니다. 이는 어텐션 실행 시간을 약 5070% 단축(23배 속도 향상)하고, end-to-end 학습 처리량을 약 10~40% 향상시키는 결과를 가져왔습니다. 긴 context 길이일수록 계산량 절감 효과가 더 큽니다. 성능 저하 없이 속도 향상을 달성했습니다.