PQS는 신경망 계산에서 점곱의 저비트폭 누적을 달성하기 위해 Prune, Quantize, Sort 세 가지 기법을 결합한 알고리즘입니다. 기존 양자화된 점곱에서는 중간 합계 누적 시 오버플로를 방지하기 위해 넓은 비트폭(예: 32비트)의 누산기를 사용하지만, 이는 메모리 대역폭 사용량을 증가시키고 에너지 효율을 떨어뜨립니다. PQS는 부동소수점에서 반복적인 N:M 가지치기 후 8비트(또는 그 이하)로 양자화하고, 부분 곱을 정렬된 순서("작은 것부터 큰 것")로 누적하여 넓은 누산기 없이 정확하고 압축된 모델을 가능하게 합니다. 여러 신경망에 대한 추론 시 누적 오버플로를 제거하도록 PQS 알고리즘을 설계, 분석 및 구현하여, 여러 이미지 분류 작업에서 부동 소수점 기준과 동등한 모델 정확도를 유지하면서 누산기 비트폭을 2.5배 감소시키는 결과를 보였습니다.