# ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing

### 저자

Edward J. Yoon

### 💡 개요

본 논문은 LLM 추론 시 발생하는 심각한 정밀도 손실 문제를 해결하기 위해 회전 도메인 평활화를 통합한 새로운 3비트 가중치 양자화 방식인 ITQ3S를 제안합니다. ITQ3S는 고유 에너지 확산을 통해 이상치 문제를 완화하고, 수학적으로 엄밀한 역변환 절차를 통해 양자화/역양자화 과정에서 발생하는 오차를 최소화합니다. 이를 통해 FP16에 버금가는 성능을 유지하면서 4비트 양자화 대비 1.5배 이상의 처리량 향상을 달성했습니다.

### 🔑 시사점 및 한계

- ITQ3S는 회전 도메인 변환을 활용하여 3비트 양자화의 성능 저하를 효과적으로 극복할 수 있음을 보여줍니다.

- 수학적으로 검증된 역변환 절차를 통해 추론 시 정확도를 높이고, 소비자용 하드웨어에서의 LLM 배포 가능성을 확장합니다.

- 논문에서 사용된 256차원 벡터에 대한 FWHT 및 역 FWHT의 효율성이 다른 차원이나 더 복잡한 모델 구조에 어떻게 적용될 수 있는지에 대한 추가 연구가 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2603.27914)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
