본 논문은 트랜스포머 모델의 높은 계산 요구 사항을 해결하기 위해 효율적인 구조적 희소 훈련 방법인 EcoSpa를 소개합니다. EcoSpa는 가중치 행렬 쌍 간의 중요한 구조적 관계를 유지하면서, 정렬된 행/열 제거를 통해 상호 작용 패턴을 보존하며, 새로운 세분성을 도입하여 구조적 구성 요소의 중요성을 조정합니다. 사전 훈련 및 미세 조정 시나리오에서 결합된 추정 및 희소화를 수행합니다.
시사점, 한계점
•
시사점:
◦
EcoSpa는 LLaMA-1B 모델의 훈련에 50% 메모리 감소와 21% 더 빠른 훈련 속도를 제공합니다.
◦
GPT-2-Medium 모델에서 2.2배 모델 압축과 2.4 낮은 perplexity를 달성합니다.
◦
1.6배의 추론 속도 향상을 제공합니다.
◦
맞춤형 하드웨어 또는 커널 없이 표준 PyTorch 연산을 사용하여 범용 하드웨어에서 효율적인 트랜스포머 훈련을 가능하게 합니다.