Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Grouped Sequency-arranged Rotation: Optimizing Rotation Transformation for Quantization for Free

Created by
  • Haebom

저자

Euntae Choi, Sumin Song, Woosang Lim, Sungjoo Yoo

개요

본 논문은 고비용의 계산 자원을 필요로 하는 대규모 언어 모델(LLM)의 배포 문제를 해결하기 위해, 사후 학습 양자화(PTQ) 기반의 새로운 회전 행렬 생성 방법을 제안합니다. 기존 회전 기반 방법들이 2-bit와 같이 매우 낮은 비트 너비에서 성능 저하를 보이는 문제를 해결하기 위해, 왈시-아다마르 변환과 시퀀시 정렬을 활용하여 유사한 주파수 성분을 클러스터링함으로써 양자화 오류를 줄이는 새로운 접근 방식을 제시합니다. 특히, 작은 왈시 블록을 가진 블록 대각 행렬을 사용하는 그룹화된 시퀀시 정렬 회전(GSR) 기법을 통해 이상치의 영향을 효과적으로 분리하고, 학습 기반 최적화 방법에 필적하는 성능을 달성합니다. WikiText-2 데이터셋을 이용한 추론 작업 및 퍼플렉서티(PPL) 점수 평가를 통해 제안된 방법의 성능을 검증하며, 기존 학습된 회전 기법에 적용하여 성능 향상을 보임을 확인합니다.

시사점, 한계점

시사점:
2-bit와 같이 매우 낮은 비트 너비에서도 효과적인 사후 학습 양자화를 가능하게 함으로써 LLM 배포의 비용을 크게 절감할 수 있습니다.
학습이 필요 없는 training-free 방식으로, 기존 최적화 기반 방법들에 비해 계산 비용을 줄일 수 있습니다.
기존 학습된 회전 기법에 추가적으로 적용하여 성능을 향상시킬 수 있습니다.
왈시-아다마르 변환과 시퀀시 정렬을 이용한 새로운 회전 행렬 생성 방법은 다른 양자화 문제에도 적용 가능성이 높습니다.
한계점:
제안된 방법의 성능은 특정 데이터셋(WikiText-2)에 대한 실험 결과에 기반하고 있으며, 다른 데이터셋이나 작업에 대한 일반화 성능은 추가적인 연구가 필요합니다.
왈시-아다마르 변환의 특성상, 고차원의 모델에 적용할 때 계산 복잡도가 증가할 수 있습니다.
다양한 LLM 아키텍처에 대한 적용성과 성능 분석이 추가적으로 필요합니다.
👍