본 논문은 저비트 가중치 전용 양자화(Low-bit weight-only quantization)가 대규모 언어 모델(LLM)의 메모리 사용량을 크게 줄이지만 특정 예시에 불균형적으로 영향을 미치는 현상을 분석합니다. 7B~70B 크기의 LLM에 다양한 3-4비트 양자화 방법을 적용하여 분석한 결과, 50쌍의 방법들의 양자화 오류가 FineWeb 예시에서 강한 상관관계(평균 0.82)를 보임을 발견하였습니다. 또한, 전체 정밀도 모델의 잔차 스트림 크기가 미래의 양자화 오류를 나타내는 지표임을 밝혔습니다. 잔차 스트림 크기와 계층에 걸친 오류 증폭 및 누적과의 관계를 가정하고, LLM 국지화 기법, 조기 종료, 활성 패치를 사용하여 큰 오류를 가진 예시가 후기 계층에서 정밀한 잔차 활성화에 의존하며, MLP 게이트의 출력이 퍼플렉서티 유지를 위해 중요한 역할을 한다는 것을 보였습니다. 결론적으로 본 연구는 특정 예시에서 큰 양자화 오류가 발생하는 이유와 성능 유지를 위해 가장 중요한 모델 구성 요소를 밝힙니다.