Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FPQVAR: Floating Point Quantization for Visual Autoregressive Model with FPGA Hardware Co-design

Created by
  • Haebom

저자

Renjie Wei, Songqiang Xu, Qingyu Guo, Meng Li

개요

본 논문은 시각적 자기회귀(VAR) 모델의 효율적인 사후 훈련 부동 소수점(FP) 양자화 프레임워크인 FPQVAR을 제안합니다. VAR은 기존 확산 모델에 비해 이미지 품질과 추론 속도를 향상시키지만, 큰 파라미터 크기와 계산 비용으로 인해 에지 장치 배포가 어렵습니다. FPQVAR은 알고리즘 및 하드웨어 공동 설계를 통해 메모리 및 계산 비용을 줄입니다. 알고리즘 수준에서는 불균형 입력 활성화를 위한 이중 형식 양자화, 시간에 따라 변하는 이상치 채널을 위한 그룹별 아다마르 변환 및 GHT-인식 학습 가능 변환을 제안합니다. 하드웨어 수준에서는 FPGA에 조회 테이블을 사용한 최초의 저비트 FP 양자화기 및 승산기를 설계하고 저비트 FP 계산과 정교한 2단계 파이프라인을 특징으로 하는 최초의 FPGA 기반 VAR 가속기를 제안합니다. 실험 결과, 최첨단 양자화 방법과 비교하여 4비트 양자화에서 FID를 10.83에서 3.58로, IS를 175.9에서 241.5로 크게 향상시켰으며, 6비트 양자화된 VAR의 성능을 FP16 모델 수준으로 끌어올렸습니다. AMD-Xilinx VCK190 FPGA에서 1.1 이미지/초의 처리량을 달성하여 정수 기반 가속기보다 3.1배 높고, 정수 기반 가속기 및 GPU 기준선보다 각각 3.6배 및 2.8배 높은 에너지 효율을 보였습니다.

시사점, 한계점

시사점:
VAR 모델의 에지 장치 배포 가능성을 높였습니다.
저비트 양자화에서도 높은 이미지 품질을 유지했습니다.
FPGA 기반 가속기를 통해 처리량과 에너지 효율을 크게 향상시켰습니다.
알고리즘 및 하드웨어 수준의 혁신적인 양자화 기법을 제시했습니다.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
다양한 하드웨어 플랫폼에서의 성능 평가가 부족합니다.
더욱 다양한 이미지 데이터셋에 대한 실험 결과가 필요합니다.
FPGA 기반 가속기의 실제 구현 및 상용화에 대한 논의가 부족합니다.
👍