본 논문은 저비트(2~3비트) 양자화에서 성능 저하 문제를 해결하기 위해 새로운 혼합 정밀도 Post-training Quantization (PTQ) 방법인 Task-Circuit Quantization (TaCQ)를 제안합니다. TaCQ는 자동 회로 발견과 유사하게, 하위 작업 성능과 관련된 가중치 집합인 가중치 회로에 직접 양자화 과정을 조건화합니다. 특정 가중치 회로는 16비트로 유지하고 나머지는 양자화하여 성능을 유지하면서 메모리 비용은 최소화합니다. 양자화로 인한 가중치 변화를 예측하고, 기울기 정보를 사용하여 작업 성능에 미치는 영향을 예측하여 작업별 가중치를 보존합니다. Llama-3 및 Qwen2.5를 사용한 QA, 수학 추론, text-to-SQL 작업에서 기존 혼합 정밀도 양자화 방법보다 우수한 성능을 보이며, 특히 2비트 및 3비트 환경에서 큰 성능 향상을 달성합니다. 예를 들어, 3.1비트로 Llama-3-8B-Instruct의 16비트 MMLU 성능의 96%를 복구하여 SPQR보다 5.25% 향상된 성능을 보였습니다.