Accelerating Transformer Inference and Training with 2:4 Activation Sparsity
Created by
Haebom
Category
Empty
저자
Daniel Haziza, Timothy Chou, Dhruv Choudhary, Luca Wehrstedt, Francisco Massa, Jiecao Yu, Geonhwa Jeong, Supriya Rao, Patrick Labatut, Jesse Cai
개요
본 논문은 GPU 하드웨어 가속에 유리한 2:4 sparsity 패턴을 활성화 함수에 적용하여 대규모 언어 모델의 학습 및 추론 속도를 높이는 방법을 제시합니다. 특히, Squared-ReLU 활성화 함수의 고유한 희소성을 활용하여 정확도 손실 없이 가속화를 달성합니다. 제안된 방법은 순전파 및 역전파 모두에서 피드포워드 네트워크(FFNs)의 속도를 최대 1.3배까지 향상시킵니다. 이 연구는 희소성이 대규모 언어 모델의 학습 및 추론 가속화에 중요한 역할을 할 수 있음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
2:4 sparsity를 활용하여 대규모 언어 모델의 학습 및 추론 속도를 향상시킬 수 있음을 보여줌.
◦
Squared-ReLU 활성화 함수의 고유 희소성을 활용하여 정확도 손실 없이 가속화 가능함을 증명.
◦
FFNs의 순전파 및 역전파 속도를 최대 1.3배 향상시킴.
◦
희소성 기반의 대규모 언어 모델 가속화에 대한 새로운 가능성 제시.
•
한계점:
◦
제안된 방법의 효율성이 다른 활성화 함수나 네트워크 구조에서도 동일하게 유지될지는 추가 연구 필요.
◦
2:4 sparsity 패턴에 국한된 접근 방식으로, 다른 sparsity 패턴에 대한 일반화 가능성 검토 필요.
◦
실험 결과가 특정 하드웨어 환경에 종속될 가능성 존재. 다양한 하드웨어 플랫폼에서의 성능 평가 필요.