대형 언어 모델(LLM)의 배포 비용을 줄이기 위한 양자화 기법 중, 후처리 양자화(PTQ)의 한계와 양자화 인식 훈련(QAT)의 높은 메모리 비용 문제를 해결하기 위해, ZeroQAT라는 0차 최적화 기반 QAT 프레임워크를 제안한다. ZeroQAT는 역전파를 제거하여 계산 및 메모리 오버헤드를 줄이면서도 종단 간(end-to-end) 최적화의 이점을 유지한다. 또한, 양자화된 미세 조정을 위한 경량화된 ZeroQAT 변형을 도입하여 메모리 사용량을 더욱 줄인다. 실험 결과, ZeroQAT는 대표적인 PTQ 및 QAT 기반 모델보다 우수한 성능을 보이며, 훨씬 적은 메모리를 요구한다. 예를 들어, 13B 모델을 단일 8GB GPU에서, 6.7B 모델을 OnePlus 12 스마트폰에서 미세 조정할 수 있다.
시사점, 한계점
•
시사점:
◦
ZeroQAT는 역전파 없이 종단 간 QAT를 수행하여 메모리 제약이 있는 환경에서도 LLM의 양자화를 가능하게 한다.
◦
2~4비트와 같이 극도로 낮은 비트 폭에서도 13B 모델을 단일 8GB GPU에서 미세 조정할 수 있다.