본 논문에서는 PTQ(Post-Training Quantization)와 QAT(Quantization-Aware Training)의 장단점을 보완하는 새로운 하이브리드 양자화 알고리즘인 PTQAT을 제안합니다. PTQ는 성능 저하가 크고, QAT는 GPU 메모리 요구량과 훈련 시간이 많다는 단점이 있습니다. PTQAT는 QAT를 통해 일부 중요한 레이어만 미세 조정하고 나머지 레이어는 PTQ를 적용하여 속도와 정확도의 균형을 맞춥니다. 흥미롭게도, 양자화 전후의 출력 차이가 작은 레이어를 미세 조정하는 것이 차이가 큰 레이어를 미세 조정하는 것보다 성능 향상에 더 효과적임을 보였습니다. 이는 양자화 오류를 발생 지점이 아닌 전파 과정에서 보정하는 것이 더 효과적임을 시사합니다. PTQAT는 다양한 비트 너비(4비트 포함)와 CNN, Transformer 등 다양한 모델 아키텍처를 지원하며, nuScenes 데이터셋을 사용한 실험 결과, 기존 QAT 기반 방법보다 객체 검출, 의미론적 분할, 점유 예측 등 다양한 3D 인지 작업에서 일관되게 우수한 성능을 보였습니다. 특히, QAT 대비 50% 가까이 미세 조정할 가중치를 줄이면서도 객체 검출에서 0.2%-0.9% NDS 및 0.3%-1.0% mAP 향상, 의미론적 분할 및 점유 예측에서 0.3%-2.0% mIoU 향상을 달성했습니다.