Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PTQTP: Post-Training Quantization to Trit-Planes for Large Language Models

Created by
  • Haebom

저자

He Xiao, Runming Yang, Qingyao Yang, Wendong Xu, Zhen Li, Yupeng Su, Zhengwu Liu, Hongxia Yang, Ngai Wong

개요

본 논문은 대규모 언어 모델(LLM)의 계산 효율성과 모델 표현력 사이의 근본적인 trade-off를 해결하기 위해, 가중치 행렬을 구조화된 ternary {-1, 0, 1} trit-planes로 분해하는 최초의 ternary-weight PTQ(Post-training Quantization) 프레임워크인 PTQ to Trit-Planes (PTQTP)를 소개합니다. PTQTP는 2x1.58-bit 표현을 사용하여 곱셈 연산이 필요 없는 추론을 가능하게 하며, LLaMA3.x 및 Qwen3 모델 제품군에서 기존의 low-bit PTQ 방법보다 뛰어난 성능을 보였습니다.

시사점, 한계점

시사점:
PTQTP는 2x1.58-bit 표현을 사용하여 곱셈 연산 없이 추론 가능.
구조화된 분해를 통해 표현력을 유지.
글로벌 가중치 일관성을 보장하는 진보적 근사 알고리즘 제공.
LLM 아키텍처 변경 없이 모델에 적용 가능.
균일한 ternary 연산으로 혼합 정밀도 또는 보상 방식 불필요.
기존 low-bit PTQ 방법보다 우수한 성능 (예: 수학적 추론 능력 82.4% 유지).
training 기반 방법 대비, 단시간 내에 quantization 가능.
한계점:
논문 자체에서 명시된 한계점은 없음. (하지만, 추후 연구를 통해 밝혀질 수 있음)
👍