Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SUS backprop: linear backpropagation algorithm for long inputs in transformers

Created by
  • Haebom

저자

Sergey Pankov, Georges Harik

개요

본 논문은 Transformer 아키텍처의 어텐션 메커니즘에서 백프로퍼게이션 계산량을 줄이기 위한 새로운 방법을 제안합니다. 긴 시퀀스의 경우 어텐션 계산량이 시퀀스 길이($n$)의 제곱에 비례하여 증가하지만, 대부분의 어텐션 가중치는 매우 작습니다. 따라서 본 논문에서는 단일 파라미터 $c$를 사용하여 백프로퍼게이션을 확률적으로 차단하는 방법을 제안합니다. 이 방법은 토큰당 어텐션 헤드마다 최대 $c$개의 상호작용만 남기고 나머지를 차단하여 어텐션 백프로퍼게이션 계산량을 $O(n^2)$에서 $O(nc)$로 줄입니다. 실험 결과, $n \sim 2000$일 때 어텐션 그래디언트 플로우의 99%를 차단($c \sim 20-30$)해도 그래디언트 분산의 증가는 약 1%에 불과하며, $n$이 증가함에 따라 감소하는 것을 확인했습니다. 이는 효율적인 희소 행렬 구현에 적합하며, 긴 시퀀스에 대한 Transformer 모델 학습 시 역전파 비용을 순전파 비용에 비해 무시할 수 있을 정도로 줄이는 데 유망합니다.

시사점, 한계점

시사점:
Transformer 모델의 어텐션 메커니즘에서 백프로퍼게이션 계산량을 효과적으로 줄일 수 있는 새로운 방법 제시.
긴 시퀀스에 대한 Transformer 모델 학습의 계산 비용을 크게 감소시킬 수 있는 잠재력.
효율적인 희소 행렬 구현을 통한 실용적인 구현 가능성.
그래디언트 분산 증가가 미미하여 모델 성능 저하를 최소화.
한계점:
제안된 방법의 효과는 특정 Transformer 모델과 시퀀스 길이에 따라 달라질 수 있음.
파라미터 $c$의 최적값 설정에 대한 추가적인 연구 필요.
다양한 종류의 Transformer 모델과 작업에 대한 추가적인 실험 검증 필요.
다른 그래디언트 계산 방법과의 비교 분석 필요.
👍