본 논문은 계층별 양자화를 통해 대규모 모델을 효율적으로 압축하는 새로운 방법인 RSQ(Rotate, Scale, then Quantize)를 제안합니다. 기존 방법들이 모든 출력 토큰에 걸쳐 균일하게 계층 재구성 손실을 최적화하는 것과 달리, RSQ는 중요한 토큰(예: 높은 어텐션 점수를 가진 토큰)으로부터의 학습을 우선시합니다. 이를 위해, RSQ는 (1) 외레어(극단적으로 큰 크기를 가진 값)를 완화하기 위해 모델에 회전(직교 변환)을 적용하고, (2) 토큰의 중요도에 따라 토큰 특징을 스케일링하고, (3) 스케일링된 토큰으로 계산된 2차 통계량을 사용하여 GPTQ 프레임워크로 모델을 양자화합니다. 토큰 중요도 계산에는 휴리스틱 및 동적 전략을 모두 탐색하며, 어텐션 집중도(각 토큰의 어텐션 점수를 중요도로 사용)를 최적의 접근 방식으로 채택합니다. 실험 결과, RSQ는 LLaMA3, Mistral, Qwen2.5 세 가지 모델 계열과 다양한 다운스트림 작업에서 기준 방법들을 꾸준히 능가하며, 특히 긴 문맥 작업에서 우수한 성능을 보입니다. 또한, 다양한 모델 크기, 보정 데이터셋, 비트 정밀도 및 양자화 방법에 걸쳐 일반화 가능성을 보여줍니다.