본 논문은 사후 훈련 양자화(PTQ)에서 기존 알고리즘이 각 선형층의 활성화 오차만을 최소화하는 한계를 극복하기 위해, 전체 모델의 KL divergence에 대한 각 선형층의 Hessian의 Kronecker-factored 근사를 이용하는 새로운 양자화 알고리즘 YAQA를 제안합니다. YAQA는 수천억 파라미터 LLM에서도 계산 가능한 Kronecker-factored Hessian 스케치와 이론적 보장을 갖춘 quantizer-independent rounding 알고리즘으로 구성됩니다. 다양한 모델과 양자화기에 걸쳐, YAQA는 기존 모델과의 KL divergence를 약 30% 감소시키면서 최첨단 성능을 달성합니다.