Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

IPTQ-ViT: Post-Training Quantization of Non-linear Functions for Integer-only Vision Transformers

Created by
  • Haebom
Category
Empty

저자

Gihwan Kim, Jemin Lee, Hyungshin Kim

개요

본 논문은 비전 변환기(Vision Transformer)를 위한 새로운 PTQ(Post-Training Quantization) 프레임워크인 IPTQ-ViT를 소개합니다. 이는 재훈련 없이 완전 정수 연산만으로 비전 변환기를 구현하며, 이미지 분류에서 최대 6.44%p (평균 1.78%p)의 top-1 정확도 향상과 객체 감지에서 1.0 mAP의 성능 향상을 달성합니다. IPTQ-ViT는 시각 데이터에 최적화된 다항식 기반 GELU 근사 함수와 비트 시프트 기반 Softmax 함수를 사용하여 PTQ 정확도를 향상시킵니다. 또한, 양자화 민감도, 섭동 및 계산 비용을 통합한 단일 메트릭을 사용하여 활성화 계층별 최적의 근사 함수를 선택합니다.

시사점, 한계점

시사점:
재훈련 없이 완전 정수 연산 기반의 비전 변환기를 구현하여 자원 제약적인 환경에서의 활용성을 높임.
GELU 및 Softmax 함수에 대한 새로운 근사 방식을 제시하여 PTQ의 정확도 향상.
양자화 민감도, 섭동, 계산 비용을 통합한 메트릭을 통해 효율적인 근사 함수 선택 가능.
기존 PTQ 방식 및 부분 부동 소수점 연산 PTQ 방식보다 우수한 성능 달성.
정수 연산 기반 QAT(Quantization-Aware Training) 방식과 유사한 정확도 및 지연 시간 확보.
한계점:
논문에서 구체적인 한계점이 명시되지 않음.
github에 코드 공개 예정.
👍