Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FAIRY2I: Universal Extremely-Low Bit QAT framework via Widely-Linear Representation and Phase-Aware Quantization

Created by
  • Haebom
Category
Empty

저자

Feiyu Wang, Xinyu Tan, Bokai Huang, Yihao Zhang, Guoan Wang, Peizhuang Cong, Tong Yang

개요

Fairy2i는 사전 훈련된 실수 기반 레이어를 동등한 광범위 선형 복소수 형태로 변환하는 프레임워크입니다. 이를 통해 기존 체크포인트를 재사용하면서 극도로 낮은 비트 양자화를 가능하게 합니다. Fairy2i는 실수와 광범위 선형 맵 간의 무손실 수학적 등가성을 증명하여 표준 Transformer를 복소수 도메인으로 변환하고, 4차 단위근의 매우 효율적인 코드북을 갖춘 위상 인식 양자화 방식을 사용합니다. 또한, 반복적으로 양자화 오류를 최소화하는 재귀적 잔차 양자화 메커니즘을 도입하여 효율적인 곱셈 없는 축적을 통해 추론을 진행할 수 있습니다. LLaMA-2 7B의 성능을 효과적인 2비트 정밀도로 복원하여 기존의 최첨단 실수 기반 이진 및 삼진 양자화 방법을 능가합니다.

시사점, 한계점

사전 훈련된 모델의 재사용을 통해 효율적인 복소수 기반 양자화 가능
2비트 정밀도로 LLaMA-2 7B의 성능 복원
실수와 복소수 사이의 무손실 변환 보장
곱셈 없는 축적을 통한 효율적인 추론
잠재적으로 다른 LLM 및 작업에 적용 가능
복소수 연산의 복잡성 및 하드웨어 구현의 어려움
4차 단위근 코드북에 대한 의존성
광범위 선형 변환의 특정 제약 사항
👍