BoA: Attention-aware Post-training Quantization without Backpropagation
Created by
Haebom
저자
Junhan Kim, Ho-young Kim, Eulrang Cho, Chungman Lee, Joonyoung Kim, Yongkweon Jeon
개요
본 논문은 자원 제약 환경에서 대규모 언어 모델(LLM) 배포를 위한 유망한 해결책인 학습 후 양자화(PTQ)에 초점을 맞춥니다. 기존의 작은 규모 네트워크(예: ResNet)를 위한 PTQ 방법들은 기울기 기반 최적화에 의존하지만, 수십억 개의 파라미터를 가진 대규모 LLM에는 비현실적입니다. 최근 제안된 역전파 없는 또는 변환 기반 방법들은 이 문제를 완화하지만, 계층 간 상호 작용을 무시하거나 가중치 최적화의 높은 계산 비용을 줄이기 위해 단순한 최근접 반올림 기반 양자화 가중치 할당을 사용합니다. 본 논문에서는 계층 간 의존성을 고려하여 양자화된 가중치를 최적화하는 새로운 역전파 없는 PTQ 알고리즘을 제시합니다. 핵심 혁신은 어텐션 모듈 내의 계층 간 상호 작용을 포착하는 어텐션 인식 헤시안 행렬을 개발한 것입니다. 광범위한 실험을 통해 제안된 방법이 기존 가중치 양자화 방법보다 성능이 우수하며, 활성화 이상치를 억제하는 기존 방법과의 시너지 효과를 보여주어 최첨단 가중치-활성화 양자화 성능을 달성함을 보여줍니다. 코드는 https://github.com/SamsungLabs/BoA 에서 이용 가능합니다.
시사점, 한계점
•
시사점:
◦
계층 간 상호 작용을 고려하는 새로운 역전파 없는 PTQ 알고리즘을 제시하여 대규모 LLM의 효율적인 양자화를 가능하게 함.
◦
어텐션 인식 헤시안 행렬을 활용하여 기존 방법보다 우수한 가중치 양자화 성능을 달성.
◦
활성화 이상치 억제 방법과의 시너지 효과를 통해 최첨단 가중치-활성화 양자화 성능을 달성.