본 논문은 대규모 언어 모델(LLM) 서비스의 높은 비용 문제를 해결하기 위해 후처리 가중치 양자화에 초점을 맞추고 있습니다. 기존의 가중치 양자화 방법들은 민감도 지표를 사용하여 손실 함수에 대한 가중치의 영향을 평가하지만, 기울기 및 헤시안 기반 지표는 정확도가 낮다는 것을 실험적으로 밝혔습니다. 이를 해결하기 위해, 본 논문은 정확한 후 민감도를 미세하게 추정하는 새로운 지표인 Post-quantization Integral (PQI)을 제안합니다. 그리고 PQI를 활용하여, 자가 적응적 이상치 선택 및 단계적 중요 가중치 분리라는 두 가지 밀집 및 희소 분리 구성 요소로 이루어진 ReQuant라는 효율적인 프레임워크를 제시합니다. 실험 결과, ReQuant는 기존 최첨단 후처리 양자화 방법을 개선하여 Llama 3.2 1B 모델에서 QTIP을 사용하여 2.66 perplexity 향상을 달성했습니다.