정확한 오픈형 대규모 언어 모델(LLM)의 등장으로 인해 최종 사용자 장치에서 효율적인 배포를 가능하게 하는 고급 양자화 기술에 대한 요구가 증가했습니다. 이 논문에서는 활성화 및 가중치 모두에 대한 초저 비트 양자화를 목표로 하는 극심한 LLM 압축 문제를 푸리에 주파수 영역 관점에서 재검토합니다. 활성 이상치와 채널 간 분산을 해결하는 2단계 프레임워크인 SpecQuant를 제안합니다. 첫 번째 단계에서 활성 이상치는 매끄럽게 처리되어 다운스트림 양자화를 단순화하기 위해 가중치 행렬로 전송됩니다. 두 번째 단계에서는 채널별 저주파 푸리에 절단을 적용하여 중요한 신호 에너지를 보존하면서 고주파 성분을 억제하여 양자화 견고성을 향상시킵니다. 이 방법은 대부분의 가중치 에너지가 저주파 성분에 집중되어 있으며 모델 정확도에 미치는 영향은 최소화하면서 이를 유지할 수 있다는 원리를 기반으로 합니다. 런타임 적응성을 위해 채널 특성에 따라 절단 임계값을 조정하는 경량 절단 모듈을 추론 중에 도입합니다. LLaMA-3 8B에서 SpecQuant는 가중치와 활성화 모두에 대해 4비트 양자화를 달성하여 제로샷 정확도 격차를 전체 정밀도와 비교하여 1.5%로 좁히는 동시에 2배 빠른 추론과 3배 낮은 메모리 사용량을 제공합니다.