본 논문은 대규모 언어 모델(LLM)의 효율성을 높이기 위한 양자화(Quantization) 기법의 안전성 및 신뢰성에 대한 영향을 평가하기 위해, 1,067개의 어려운 질문으로 구성된 OpenMiniSafety 안전성 데이터셋을 제시합니다. 이 데이터셋을 이용하여 4개의 LLM (양자화 및 정밀도 버전 모두)에 대한 4,268개의 주석이 달린 질문-답변 쌍을 공개하고, 4가지 사후 훈련 양자화(PTQ) 및 2가지 양자화 인식 훈련(QAT) 방법을 사용하여 66개의 양자화된 모델 변형을 4가지 안전성 벤치마크(인간 중심 평가 포함)를 통해 평가합니다. 연구 결과, PTQ 및 QAT 모두 안전성 정렬을 저하시킬 수 있으며, QLORA 또는 STE와 같은 QAT 기법은 안전성이 떨어지는 것으로 나타났습니다. 어떤 단일 방법도 벤치마크, 정밀도 설정 또는 모델 전반에서 일관되게 다른 방법보다 우수하지 않다는 점을 강조하며, 안전성을 고려한 압축 전략의 필요성을 보여줍니다. 또한, QUIK 및 AWQ(4비트), AQLM 및 Q-PET(2비트)와 같은 정밀도 특화 방법은 대상 정밀도에서 뛰어난 성능을 보이며, 이러한 방법들이 압축에 더 뛰어난 것이 아니라 다른 접근 방식임을 의미합니다.