본 논문은 트랜스포머 아키텍처의 어텐션 메커니즘에서 역전파 계산량을 줄이기 위한 새로운 방법을 제안합니다. 긴 시퀀스의 경우 어텐션 계산량이 시퀀스 길이($n$)의 제곱에 비례하여 증가하지만, 대부분의 어텐션 가중치는 매우 작은 값을 가지는 특성을 이용합니다. 단일 파라미터 $c$를 사용하여 확률적으로 역전파 경로를 잘라냄으로써, 토큰당 어텐션 헤드별 상호작용을 최대 $c$개로 제한합니다. 이를 통해 어텐션 역전파 계산량을 $O(n^2)$에서 $O(nc)$로 줄여, 계산 복잡도를 선형으로 감소시킵니다. 실험 결과, 약 99%의 어텐션 그래디언트 흐름을 잘라낼 때 (즉, $c \sim 25-30$), $n \sim 2000$ 에서 그래디언트 분산의 증가는 약 1%에 불과하며, $n$이 증가함에 따라 감소함을 확인했습니다. 이 방법은 효율적인 희소 행렬 구현에 적합하여, 긴 시퀀스에 대한 트랜스포머 모델 학습에서 역전파 비용을 순전파 비용에 비해 무시할 수 있을 정도로 줄일 수 있는 가능성을 제시합니다.