본 논문은 양자화된 모델 크기와 정확도 사이의 최적 절충점을 달성하기 위한 최적의 비트 너비를 탐구한다. 1비트, 1.58비트, 2비트, 3비트, 4비트 양자화 설정을 포괄적으로 비교할 수 있는 통합 프레임워크인 ParetoQ를 제시한다. 2비트와 3비트 사이의 학습 전환을 발견했으며, ParetoQ는 특정 비트 너비에 맞게 조정된 모든 이전 방법보다 우수하다. ParetoQ ternary 600M-parameter 모델이 이전 SoTA ternary 3B-parameter 모델보다 정확도가 높고, ternary, 2비트, 3비트 양자화가 크기-정확도 절충에서 비슷한 성능을 보이며, 2비트 양자화가 메모리 감소와 속도 향상에 잠재력이 있음을 보여준다.
시사점, 한계점
•
시사점:
◦
다양한 비트 너비(1비트, 1.58비트, 2비트, 3비트, 4비트)를 포괄적으로 비교하는 통합 프레임워크인 ParetoQ 제시.
◦
2비트와 3비트 사이의 학습 전환 발견.
◦
ParetoQ ternary 600M-parameter 모델이 기존 SoTA 3B-parameter 모델보다 우수한 성능을 보임.