Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

First-Order Error Matters: Accurate Compensation for Quantized Large Language Models

Created by
  • Haebom

저자

Xingyu Zheng, Haotong Qin, Yuye Li, Jiakai Wang, Jinyang Guo, Michele Magno, Xianglong Liu

개요

본 논문은 사후 훈련 양자화(PTQ)를 통해 대규모 언어 모델(LLM)을 압축하는 효율적인 방법을 제시합니다. 기존의 보정 기반 가중치 보정 방법은 잘 훈련된 정밀도 모델에서 1차 항이 무시할 만하다고 가정하여 2차 테일러 전개에 의존하는데, 본 논문에서는 점진적인 보정 과정이 잠재 가중치와 정밀도 가중치 간에 누적된 1차 편차를 유발하여 이 가정이 근본적으로 잘못되었음을 밝힙니다. 이를 해결하기 위해, 본 논문은 1차 기울기 항을 명시적으로 통합하여 양자화 오류 보정을 개선하는 새로운 PTQ 방법인 FOEM을 제안합니다. FOEM은 역전파 기반 기울기 계산의 높은 비용과 제한된 일반화를 피하기 위해 잠재 가중치와 정밀도 가중치의 차이를 직접 계산하여 기울기를 근사합니다. 이 방법은 최소한의 추가적인 계산 오버헤드를 도입합니다. 또한, FOEM은 미리 계산된 콜레스키 인수를 활용하여 실시간으로 헤세 행렬의 부분 행렬의 역을 효율적으로 복구합니다. 다양한 모델과 벤치마크에 대한 광범위한 실험을 통해 FOEM이 기존의 GPTQ 방법보다 일관되게 우수한 성능을 보임을 보여줍니다. 3비트 가중치 전용 양자화에서 FOEM은 Llama3-8B의 퍼플렉서티를 89.6% 감소시키고, Llama3-70B의 5샷 MMLU 정확도를 51.7%에서 74.9%로 향상시켜 78.6%인 정밀도 성능에 근접합니다. 또한, FOEM은 GPTAQ 및 SpinQuant와 같은 고급 기술과 원활하게 통합되어 W4A4KV4 설정에서 추가적인 개선을 제공하며, 현재 최첨단 방법이 달성하는 것 이상으로 정밀도 기준과의 정확도 차이를 더욱 줄입니다. 코드는 https://github.com/Xingyu-Zheng/FOEM 에서 이용 가능합니다.

시사점, 한계점

시사점:
기존 PTQ 방법의 근본적인 한계점을 지적하고, 1차 기울기 항을 고려한 새로운 PTQ 방법 FOEM을 제시함으로써 LLM의 효율적인 압축 및 성능 향상을 가능하게 함.
FOEM은 계산 비용이 적으면서도 기존 방법보다 우수한 성능을 보임.
다양한 모델과 벤치마크에서 일관된 성능 향상을 보여줌.
기존의 고급 PTQ 기술과의 호환성을 통해 추가적인 성능 향상 가능.
한계점:
FOEM의 성능 향상이 특정 모델과 벤치마크에 국한될 가능성.
더욱 다양하고 복잡한 LLM에 대한 추가적인 실험이 필요.
1차 기울기 근사 방법의 정확도에 대한 추가적인 분석 필요.
👍