Xuan Shen, Peiyan Dong, Zhenglun Kong, Yifan Gong, Changdi Yang, Zhaoyang Han, Yanyue Xie, Lei Lu, Cheng Lyu, Chao Wu, Yanzhi Wang, Pu Zhao
개요
본 논문은 모바일 기기에서 효율적인 소형 언어 모델(SLM)을 위한 양자화 인식 학습(QAT) 프레임워크인 Squat을 제안합니다. 기존 QAT 방법들은 GPU 상의 대규모 모델에 초점을 맞춰 모바일 기기의 SIMD 명령어에 최적화되지 않았다는 한계를 지적하며, Squat은 엔트로피 기반 증류 및 분포 정렬 증류를 통해 양자화로 인한 어텐션 정보 왜곡을 완화하고, 토큰 중요도에 따라 가변 비트 너비를 할당하는 서브-8비트 토큰 적응형 양자화를 사용합니다. 또한, 모바일 기기에서 서브-8비트 혼합 정밀도 MAC 연산을 지원하는 SIMD 기반 다중 커널 혼합 정밀도(MKMP) 곱셈기를 개발했습니다. 실험 결과, Squat은 다른 QAT 방법들에 비해 성능 향상을 보였으며, FP16 대비 최대 2.37배의 속도 향상을 달성했습니다.
시사점, 한계점
•
시사점:
◦
모바일 기기에서 효율적인 소형 언어 모델 구축을 위한 새로운 QAT 프레임워크(Squat) 제시