Sign In

STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization

Created by
  • Haebom
Category
Empty

저자

Marco Federici, Riccardo Del Chiaro, Boris van Breugel, Paul Whatmough, Markus Nagel

개요

STaMP (Sequence Transformation and Mixed Precision)는 생성 AI 모델의 추론 지연 시간, 전력 소비량 및 메모리 공간을 줄이기 위한 양자화 전략입니다. 특히, 언어 및 시각 데이터의 강한 국부 상관 관계를 활용하기 위해 시퀀스 차원을 따라 선형 변환을 적용합니다. 또한, 각 중간 활성화에서 소수의 토큰을 더 높은 정밀도로 유지함으로써, 낮은 (평균) 활성화 비트 폭에서도 모델 정확도를 유지합니다. LVM 및 LLM 아키텍처에서 STaMP를 평가한 결과, 낮은 비트 폭 활성화 양자화를 크게 개선하고, 기존의 활성화 및 가중치 양자화 방법을 보완하는 것으로 나타났습니다.

시사점, 한계점

시사점:
낮은 비트 폭에서의 활성화 양자화 성능 향상
기존의 활성화 및 가중치 양자화 방법 보완
언어 및 시각 데이터의 국부 상관 관계 활용
LVM 및 LLM 아키텍처에서 효과 입증
한계점:
논문에서 구체적인 한계점은 명시되지 않음 (추후 연구 필요)
👍