PTQTP: Post-Training Quantization to Trit-Planes for Large Language Models
Created by
Haebom
저자
He Xiao, Runming Yang, Qingyao Yang, Wendong Xu, Zhen Li, Yupeng Su, Zhengwu Liu, Hongxia Yang, Ngai Wong
개요
본 논문은 대규모 언어 모델(LLM)의 계산 효율성과 모델 표현력 사이의 근본적인 trade-off를 해결하기 위해, 가중치 행렬을 구조화된 ternary {-1, 0, 1} trit-planes로 분해하는 최초의 ternary-weight PTQ(Post-training Quantization) 프레임워크인 PTQ to Trit-Planes (PTQTP)를 소개합니다. PTQTP는 2x1.58-bit 표현을 사용하여 곱셈 연산이 필요 없는 추론을 가능하게 하며, LLaMA3.x 및 Qwen3 모델 제품군에서 기존의 low-bit PTQ 방법보다 뛰어난 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
PTQTP는 2x1.58-bit 표현을 사용하여 곱셈 연산 없이 추론 가능.
◦
구조화된 분해를 통해 표현력을 유지.
◦
글로벌 가중치 일관성을 보장하는 진보적 근사 알고리즘 제공.
◦
LLM 아키텍처 변경 없이 모델에 적용 가능.
◦
균일한 ternary 연산으로 혼합 정밀도 또는 보상 방식 불필요.
◦
기존 low-bit PTQ 방법보다 우수한 성능 (예: 수학적 추론 능력 82.4% 유지).