STaMP (Sequence Transformation and Mixed Precision)는 생성 AI 모델의 추론 지연 시간, 전력 소비량 및 메모리 공간을 줄이기 위한 양자화 전략입니다. 특히, 언어 및 시각 데이터의 강한 국부 상관 관계를 활용하기 위해 시퀀스 차원을 따라 선형 변환을 적용합니다. 또한, 각 중간 활성화에서 소수의 토큰을 더 높은 정밀도로 유지함으로써, 낮은 (평균) 활성화 비트 폭에서도 모델 정확도를 유지합니다. LVM 및 LLM 아키텍처에서 STaMP를 평가한 결과, 낮은 비트 폭 활성화 양자화를 크게 개선하고, 기존의 활성화 및 가중치 양자화 방법을 보완하는 것으로 나타났습니다.