후처리 양자화(PTQ)는 대규모 언어 모델(LLM)을 압축하는 효율적인 접근 방식이며, 메모리 접근 및 계산 비용을 크게 줄입니다. 기존의 보상 기반 가중치 보정 방법은 종종 2차 Taylor 전개를 사용하여 양자화 오류를 모델링하지만, 1차 항이 잘 훈련된 전체 정밀도 모델에서 무시할 수 있다는 가정을 합니다. 그러나 이 논문에서는 점진적인 보상 프로세스가 잠재 가중치와 전체 정밀도 대응물 간에 누적된 1차 편차를 도입하여 이 가정이 근본적으로 결함이 있음을 밝혔습니다. 이를 해결하기 위해, 이 논문은 양자화 오류 보상을 개선하기 위해 1차 기울기 항을 명시적으로 통합하는 새로운 PTQ 방법인 FOEM을 제안합니다. FOEM은 양자화 전 가중치를 중심으로 1차 Taylor 전개를 수행하여 기울기를 근사합니다. 이로 인해 잠재 가중치와 전체 정밀도 가중치의 차이뿐만 아니라 Hessian 행렬을 기반으로 한 근사가 생성됩니다. 이론적 해에 대입하면, FOEM 공식은 Hessian을 명시적으로 계산할 필요성을 제거하여 역전파 기반 기울기 방법의 높은 계산 비용과 제한된 일반화를 피합니다. 이 설계는 최소한의 추가 계산 오버헤드만을 도입합니다. 다양한 모델 및 벤치마크에 대한 광범위한 실험을 통해 FOEM이 기존 GPTQ 방법보다 일관되게 우수한 성능을 보임을 보여줍니다. 3비트 가중치 전용 양자화에서 FOEM은 Llama3-8B의 혼란도를 17.3% 감소시키고, 5-shot MMLU 정확도를 GPTAQ가 달성한 53.8%에서 56.1%로 증가시킵니다. 또한, FOEM은 SpinQuant와 같은 고급 기술과 원활하게 결합하여 어려운 W4A4KV4 설정에서 추가적인 이점을 제공하고, 전체 정밀도 기준선과의 성능 격차를 더욱 좁히며, 기존의 최첨단 방법을 능가합니다.