QuantX는 LLM과 VLM을 위한 맞춤형 양자화 레시피 모음입니다. 성능 저하를 최소화하면서 최대 3비트 해상도까지 양자화할 수 있습니다. QuantX의 양자화 전략은 추론 중 효율적인 역양자화를 보장하기 위해 하드웨어별 제약 조건을 고려하여 실행 속도, 메모리 요구 사항 및 모델 정확도 간의 유연한 절충을 가능하게 합니다. 실험 결과, QuantX는 여러 최종 사용자 작업에 대해 3비트로 양자화된 LlaVa-v1.6에서 양자화되지 않은 모델의 성능과 6% 이내의 성능을 달성하며, 최근 발표된 최첨단 양자화 기술보다 우수한 성능을 보여줍니다. 본 논문에서는 QuantX에 통합된 다양한 레시피와 옵션을 고안하게 된 LLM 양자화 프로세스에 대한 통찰력을 제공합니다.