본 논문은 사후 훈련 양자화(PTQ)를 통해 대규모 언어 모델(LLM)을 압축하는 효율적인 방법을 제시합니다. 기존의 보정 기반 가중치 보정 방법은 잘 훈련된 정밀도 모델에서 1차 항이 무시할 만하다고 가정하여 2차 테일러 전개에 의존하는데, 본 논문에서는 점진적인 보정 과정이 잠재 가중치와 정밀도 가중치 간에 누적된 1차 편차를 유발하여 이 가정이 근본적으로 잘못되었음을 밝힙니다. 이를 해결하기 위해, 본 논문은 1차 기울기 항을 명시적으로 통합하여 양자화 오류 보정을 개선하는 새로운 PTQ 방법인 FOEM을 제안합니다. FOEM은 역전파 기반 기울기 계산의 높은 비용과 제한된 일반화를 피하기 위해 잠재 가중치와 정밀도 가중치의 차이를 직접 계산하여 기울기를 근사합니다. 이 방법은 최소한의 추가적인 계산 오버헤드를 도입합니다. 또한, FOEM은 미리 계산된 콜레스키 인수를 활용하여 실시간으로 헤세 행렬의 부분 행렬의 역을 효율적으로 복구합니다. 다양한 모델과 벤치마크에 대한 광범위한 실험을 통해 FOEM이 기존의 GPTQ 방법보다 일관되게 우수한 성능을 보임을 보여줍니다. 3비트 가중치 전용 양자화에서 FOEM은 Llama3-8B의 퍼플렉서티를 89.6% 감소시키고, Llama3-70B의 5샷 MMLU 정확도를 51.7%에서 74.9%로 향상시켜 78.6%인 정밀도 성능에 근접합니다. 또한, FOEM은 GPTAQ 및 SpinQuant와 같은 고급 기술과 원활하게 통합되어 W4A4KV4 설정에서 추가적인 개선을 제공하며, 현재 최첨단 방법이 달성하는 것 이상으로 정밀도 기준과의 정확도 차이를 더욱 줄입니다. 코드는 https://github.com/Xingyu-Zheng/FOEM 에서 이용 가능합니다.