# GlowQ: Group-Shared LOw-Rank Approximation for Quantized LLMs

### 저자

Selim An, Il hong Suh, Yeseong Kim

### 💡 개요

본 논문은 저비트 양자화된 대규모 언어 모델(LLM)의 정확도 저하 문제를 해결하기 위해 새로운 그룹 공유 저랭크 근사 방법론인 GlowQ를 제안합니다. GlowQ는 입력 공유 그룹별로 단일 공유 우측 인자를 캐싱하고 가장 높은 정확도 향상을 가져오는 그룹 또는 계층만 복원하여 파라미터 및 메모리 오버헤드를 줄입니다. 제안된 선택적 변형 모델인 GlowQ-S는 가장 큰 이점을 제공하는 곳에만 공유 모듈을 적용하여 지연 시간을 더욱 단축합니다.

### 🔑 시사점 및 한계

- 저비트 양자화 LLM의 정확도 저하 문제를 효율적으로 해결하여 기존 방법론 대비 성능 및 속도 향상을 달성했습니다.

- 그룹 공유 저랭크 근사 방식을 통해 파라미터 및 메모리 오버헤드를 효과적으로 감소시키면서도 표현력을 유지했습니다.

- 선택적 적용 방식(GlowQ-S)을 통해 지연 시간을 획기적으로 단축시키면서도 정확도를 거의 유지하는 뛰어난 성능을 보여주었습니다.

- 제안된 방법론의 일반화 성능 및 다양한 LLM 아키텍처에 대한 적용 가능성에 대한 추가적인 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2603.25385)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).