Sign In

Integer-only Quantized Transformers for Embedded FPGA-based Time-series Forecasting in AIoT

Created by
  • Haebom
Category
Empty

저자

Tianheng Ling, Chao Qian, Gregor Schiele

개요

본 논문은 AIoT 시스템의 온디바이스 시계열 예측을 위해 최적화된 Transformer 하드웨어 가속기 설계를 제시합니다. 정수 전용 양자화와 양자화 인식 훈련을 통합하여 6비트 및 4비트 양자화된 Transformer 모델을 구현했으며, 이는 관련 연구의 8비트 양자화 모델과 유사한 정밀도를 달성했습니다. 임베디드 FPGA(Xilinx Spartan-7 XC7S15)를 사용하여 Transformer 모델을 임베디드 IoT 장치에 배포하는 가능성을 검토하고, 온디바이스 추론에 대한 정밀도, 자원 활용, 타이밍, 전력 및 에너지 소비를 분석했습니다.

시사점, 한계점

4비트 양자화 Transformer 모델은 관련 연구의 8비트 양자화 모델에 비해 테스트 손실을 0.63%만 증가시키며, 최대 132.33배 더 빠르게 작동하고 48.19배 적은 에너지를 소비합니다.
양자화 비트 폭 감소가 항상 대기 시간이나 에너지 소비 감소로 이어지지는 않으므로, 다양한 최적화 조합을 체계적으로 탐색해야 합니다.
충분한 성능을 달성할 수 있지만, 최적화 프로세스는 쉽지 않습니다.
관련 소스 코드는 GitHub 저장소에서 제공됩니다.
👍