본 논문은 시각적 자기회귀(VAR) 모델의 효율적인 사후 훈련 부동 소수점(FP) 양자화 프레임워크인 FPQVAR을 제안합니다. VAR은 기존 확산 모델에 비해 이미지 품질과 추론 속도를 향상시키지만, 큰 파라미터 크기와 계산 비용으로 인해 에지 장치 배포가 어렵습니다. FPQVAR은 알고리즘 및 하드웨어 공동 설계를 통해 메모리 및 계산 비용을 줄입니다. 알고리즘 수준에서는 불균형 입력 활성화를 위한 이중 형식 양자화, 시간에 따라 변하는 이상치 채널을 위한 그룹별 아다마르 변환 및 GHT-인식 학습 가능 변환을 제안합니다. 하드웨어 수준에서는 FPGA에 조회 테이블을 사용한 최초의 저비트 FP 양자화기 및 승산기를 설계하고 저비트 FP 계산과 정교한 2단계 파이프라인을 특징으로 하는 최초의 FPGA 기반 VAR 가속기를 제안합니다. 실험 결과, 최첨단 양자화 방법과 비교하여 4비트 양자화에서 FID를 10.83에서 3.58로, IS를 175.9에서 241.5로 크게 향상시켰으며, 6비트 양자화된 VAR의 성능을 FP16 모델 수준으로 끌어올렸습니다. AMD-Xilinx VCK190 FPGA에서 1.1 이미지/초의 처리량을 달성하여 정수 기반 가속기보다 3.1배 높고, 정수 기반 가속기 및 GPU 기준선보다 각각 3.6배 및 2.8배 높은 에너지 효율을 보였습니다.