본 논문은 자원 제약이 있는 개인 기기에서 대규모 언어 모델(LLM)의 배치를 저해하는 과도한 계산 및 메모리 요구 사항을 해결하기 위해, 양자화를 통해 효율성을 높이는 새로운 방법을 제시합니다. 기존 양자화 방법의 한계인 성능과 오버헤드 간의 균형 문제, 활성화 이상치 처리 문제를 해결하기 위해, Outlier Spatial Stability Hypothesis (OSSH)를 제안합니다. OSSH를 기반으로, 저정밀 활성화 표현을 최적화하는 매개변수 효율적인 미세 조정 프레임워크인 Quaff를 제시합니다. Quaff는 경량 연산을 사용하여 불변 채널에서만 이상치를 동적으로 억제하여, 전정밀 가중치 저장 및 전역 재조정 없이 양자화 오류를 줄입니다. 10개의 벤치마크에 대한 광범위한 실험을 통해 OSSH의 유효성과 Quaff의 효과를 검증합니다. 특히 GPQA 추론 벤치마크에서 Quaff는 전정밀 미세 조정에 비해 1.73배의 지연 시간 감소와 30%의 메모리 절약을 달성하면서 Phi-3 모델에서 정확도를 0.6% 향상시켰습니다. 이는 효율성, 성능, 배포 가능성 간의 삼중 절충을 해결한 것입니다. Quaff는 모델 유용성을 희생하지 않고 소비자급 GPU 미세 조정을 가능하게 하여 개인화된 LLM 배포를 민주화합니다. 코드는 Github에서 공개됩니다.