GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning

작성자

Haebom

카테고리

비어 있음

저자

Sifan Zhou, Shuo Wang, Zhihang Yuan, Mingjia Shi, Yuzhang Shang, Dawei Yang

개요

본 논문은 자원 제약이 있는 에지 디바이스에서의 대규모 언어 모델(LLM) 미세 조정을 위한 새로운 프레임워크인 GSQ-Tuning을 제시합니다. GSQ-Tuning은 추론 및 학습 과정 모두에서 부동 소수점 연산을 제거하여 메모리 및 연산 효율성을 높입니다. 이는 파라미터 그룹 간 공유 지수를 사용하는 Group-Shared Exponents Integer 형식을 통해 모델 파라미터를 정수 형식으로 효율적으로 표현하는 것이 핵심입니다. LoRA와 유사한 어댑터와 결합하여 메모리와 연산 효율이 높은 완전 정수 기반 미세 조정을 가능하게 합니다. 실험 결과, BF16 기반 미세 조정과 비교하여 동등한 정확도를 달성하면서 메모리 사용량을 1.85배 감소시켰으며, FP8과 비교하여 동일한 성능으로 전력 소비량을 5배, 칩 면적을 11배 줄이는 것을 보여줍니다.