Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adaptive Computation Pruning for the Forgetting Transformer

Created by
  • Haebom

저자

Zhixuan Lin, Johan Obando-Ceron, Xu Owen He, Aaron Courville

개요

Forgetting Transformer (FoX)의 효율성을 높이기 위한 Adaptive Computation Pruning (ACP) 기법을 제안합니다. FoX는 softmax attention에 forget gate를 도입하여 기존 Transformer보다 성능이 향상되었지만, 많은 어텐션 헤드가 빠르게 정보를 잊어버리는 경향이 있습니다. ACP는 forget gate에 의해 강하게 감쇠되는 입출력 의존성을 포함하는 계산을 동적으로 제거하여 이 문제를 해결합니다. 동적으로 설정되는 pruning threshold를 통해 안전하게 pruning을 수행하며, 언어 모델 사전 학습에서 FoX에 ACP를 적용하여 FLOPs와 메모리 접근 횟수를 약 70% 감소시켰습니다. 이는 어텐션 실행 시간을 약 5070% 단축(23배 속도 향상)하고, end-to-end 학습 처리량을 약 10~40% 향상시키는 결과를 가져왔습니다. 긴 context 길이일수록 계산량 절감 효과가 더 큽니다. 성능 저하 없이 속도 향상을 달성했습니다.

시사점, 한계점

시사점:
FoX의 효율성을 크게 향상시키는 ACP 기법을 제시.
FLOPs와 메모리 접근 횟수를 상당히 감소시켜 어텐션 연산 속도를 2~3배 향상.
end-to-end 학습 처리량을 10~40% 증가시킴.
긴 context 길이에서 더 큰 효과를 보임.
성능 저하 없이 속도 향상을 달성.
한계점:
ACP 기법이 FoX에 특화되어 다른 Transformer 모델에 적용 가능성은 추가 연구 필요.
현재는 특정 구현 (GitHub 링크 제공)에 국한된 결과이며, 다른 구현이나 하드웨어 환경에서의 일반화 가능성에 대한 추가 검증 필요.
👍