본 논문은 비전 변환기(Vision Transformer)를 위한 새로운 PTQ(Post-Training Quantization) 프레임워크인 IPTQ-ViT를 소개합니다. 이는 재훈련 없이 완전 정수 연산만으로 비전 변환기를 구현하며, 이미지 분류에서 최대 6.44%p (평균 1.78%p)의 top-1 정확도 향상과 객체 감지에서 1.0 mAP의 성능 향상을 달성합니다. IPTQ-ViT는 시각 데이터에 최적화된 다항식 기반 GELU 근사 함수와 비트 시프트 기반 Softmax 함수를 사용하여 PTQ 정확도를 향상시킵니다. 또한, 양자화 민감도, 섭동 및 계산 비용을 통합한 단일 메트릭을 사용하여 활성화 계층별 최적의 근사 함수를 선택합니다.