본 논문은 대규모 언어 모델(LLMs)의 실세계 배포 비용을 줄이기 위해 3진수(2비트) 양자화를 연구합니다. 기존의 양자화 기법들은 정확도 저하 또는 추가적인 훈련 비용을 수반하는 반면, 본 논문은 편향 없는 RMS 정규화된 Transformer와 직통 추정을 활용하여 안정적으로 전체 정밀도 검사점을 3진수 LLM으로 미세 조정하는 방법을 제시합니다. 각 선형 투영 전에 RMS 정규화를 추가하고, 계층별 점진적인 양자화 일정을 적용하는 간단한 방법으로 표준 언어 모델 벤치마크에서 기존의 지식 증류 파이프라인과 동등하거나 더 나은 성능을 달성합니다. 이는 신중한 정규화만으로도 3진수와 전체 정밀도 LLM 간의 정확도 차이를 크게 줄일 수 있음을 시사하며, 초저비트 추론을 실현 가능하게 만듭니다.
시사점, 한계점
•
시사점:
◦
RMS 정규화를 통한 간단한 방법으로 3진수 LLM의 정확도를 크게 향상시킬 수 있음을 보여줌.
◦
복잡한 지식 증류 파이프라인 없이도 뛰어난 성능을 달성 가능함.
◦
초저비트 추론을 위한 실용적인 방법 제시.
◦
대규모 언어 모델의 배포 비용 감소에 기여.
•
한계점:
◦
제시된 방법이 모든 LLM 아키텍처나 모든 종류의 작업에 대해 동일하게 효과적일지는 추가 연구 필요.