본 논문은 Transformer 아키텍처의 어텐션 메커니즘에서 백프로퍼게이션 계산량을 줄이기 위한 새로운 방법을 제안합니다. 긴 시퀀스의 경우 어텐션 계산량이 시퀀스 길이($n$)의 제곱에 비례하여 증가하지만, 대부분의 어텐션 가중치는 매우 작습니다. 따라서 본 논문에서는 단일 파라미터 $c$를 사용하여 백프로퍼게이션을 확률적으로 차단하는 방법을 제안합니다. 이 방법은 토큰당 어텐션 헤드마다 최대 $c$개의 상호작용만 남기고 나머지를 차단하여 어텐션 백프로퍼게이션 계산량을 $O(n^2)$에서 $O(nc)$로 줄입니다. 실험 결과, $n \sim 2000$일 때 어텐션 그래디언트 플로우의 99%를 차단($c \sim 20-30$)해도 그래디언트 분산의 증가는 약 1%에 불과하며, $n$이 증가함에 따라 감소하는 것을 확인했습니다. 이는 효율적인 희소 행렬 구현에 적합하며, 긴 시퀀스에 대한 Transformer 모델 학습 시 역전파 비용을 순전파 비용에 비해 무시할 수 있을 정도로 줄이는 데 유망합니다.