Transformer 기반 모델은 컴퓨터 비전(CV) 및 자연어 처리(NLP) 분야에서 뛰어난 성능을 보였지만, 모델 내 비선형 연산은 추론 지연 시간을 증가시키는 문제가 있다. 본 논문에서는 비선형 연산의 효율적인 회로 공유를 통해 하드웨어 자원 요구 사항을 줄이는 양자화 기반 FPGA 가속 프레임워크인 QUARK를 제안한다. QUARK는 Transformer 기반 모델 내 모든 비선형 연산을 대상으로 하며, 이러한 연산을 가속화하기 위해 맞춤 설계된 새로운 회로 공유 설계를 통해 고성능 근사치를 달성한다. QUARK는 주류 Transformer 아키텍처에서 비선형 연산자의 계산 오버헤드를 크게 줄여, GPU 구현에 비해 최대 1.96배의 엔드 투 엔드 속도 향상을 달성한다. 또한, QUARK는 기존 접근 방식에 비해 비선형 모듈의 하드웨어 오버헤드를 50% 이상 줄이면서도 높은 모델 정확도를 유지하며, 초저비트 양자화 환경에서도 정확도를 크게 향상시킨다.