QuantX는 LLM과 VLM을 위한 맞춤형 양자화 레시피 모음입니다. 성능 저하를 최소화하면서 3비트 해상도까지 양자화할 수 있습니다. QuantX의 양자화 전략은 추론 중 효율적인 역양자화를 위해 하드웨어별 제약 조건을 고려하여 실행 속도, 메모리 요구 사항 및 모델 정확도 간의 유연한 절충을 보장합니다. 실험 결과, QuantX는 여러 최종 사용자 작업에 대해 3비트로 양자화된 LlaVa-v1.6의 경우 양자화되지 않은 모델의 성능에서 6% 이내의 성능을 달성하며, 최근 발표된 최첨단 양자화 기술을 능가합니다. 또한 QuantX의 특정 기술을 인기 있는 Llama.cpp 프레임워크에 통합하여 Llama.cpp의 주류 양자화 기술과 비교하여 실행 시간 측면에서의 실현 가능성을 보여줍니다. 마지막으로, 본 논문은 QuantX에 통합된 다양한 레시피와 옵션을 유도한 LLM 양자화 프로세스에 대한 통찰력을 제공합니다.