Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adaptive Computation Pruning for the Forgetting Transformer

Created by
  • Haebom

저자

Zhixuan Lin, Johan Obando-Ceron, Xu Owen He, Aaron Courville

개요

본 논문은 Forgetting Transformer (FoX)의 효율성을 개선하기 위해 Adaptive Computation Pruning (ACP) 기법을 제안합니다. FoX는 softmax attention에 forget gate를 도입하여 기존 Transformer보다 성능이 향상되었지만, 많은 attention head가 빠르게 정보를 잊어버리는 경향이 있습니다. ACP는 forget gate에 의해 강하게 감쇠된 입출력 의존성을 포함하는 계산을 동적으로 제거하여 이 문제를 해결합니다. 실험 결과, ACP는 다양한 모델 크기와 문맥 길이에서 softmax attention의 FLOPs를 약 70% 감소시키고, 훈련 처리량을 약 10%~35% 향상시키는 것으로 나타났습니다. 특히 긴 문맥 길이에서 더 큰 계산량 절감 효과를 보였으며, 성능 저하 없이 속도 향상을 달성했습니다.

시사점, 한계점

시사점:
FoX의 계산 효율성을 크게 향상시키는 ACP 기법을 제시.
softmax attention의 FLOPs를 약 70% 감소시키고, 훈련 처리량을 10%~35% 향상.
긴 문맥 길이에서 더 큰 효과를 보임.
성능 저하 없이 속도 향상 달성.
다양한 모델 크기와 문맥 길이에 적용 가능성을 보임.
한계점:
현재는 FoX에만 적용된 기법으로, 다른 Transformer 모델에 대한 적용성은 추가 연구가 필요.
ACP의 pruning threshold 설정에 대한 추가적인 최적화 연구가 필요할 수 있음.
특정 task나 데이터셋에 대한 성능 향상이 제한적일 가능성 존재.
👍