로그인

GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning

작성자
  • Haebom
카테고리
비어 있음

저자

Sifan Zhou, Shuo Wang, Zhihang Yuan, Mingjia Shi, Yuzhang Shang, Dawei Yang

개요

본 논문은 자원 제약이 있는 에지 디바이스에서의 대규모 언어 모델(LLM) 미세 조정을 위한 새로운 프레임워크인 GSQ-Tuning을 제시합니다. GSQ-Tuning은 추론 및 학습 과정 모두에서 부동 소수점 연산을 제거하여 메모리 및 연산 효율성을 높입니다. 이는 파라미터 그룹 간 공유 지수를 사용하는 Group-Shared Exponents Integer 형식을 통해 모델 파라미터를 정수 형식으로 효율적으로 표현하는 것이 핵심입니다. LoRA와 유사한 어댑터와 결합하여 메모리와 연산 효율이 높은 완전 정수 기반 미세 조정을 가능하게 합니다. 실험 결과, BF16 기반 미세 조정과 비교하여 동등한 정확도를 달성하면서 메모리 사용량을 1.85배 감소시켰으며, FP8과 비교하여 동일한 성능으로 전력 소비량을 5배, 칩 면적을 11배 줄이는 것을 보여줍니다.

시사점, 한계점

시사점:
에지 디바이스에서의 LLM 미세 조정을 위한 효율적인 방법 제시.
부동 소수점 연산을 제거하여 메모리 및 연산 효율 향상.
BF16 기반 미세 조정과 비교하여 동등한 정확도 달성.
FP8 대비 전력 소비 및 칩 면적 감소를 통한 에너지 효율 증대.
대규모 모델 적용 가능성 확대.
한계점:
제안된 GSQ-Tuning의 일반적인 LLM 아키텍처 및 다양한 데이터셋에 대한 적용성에 대한 추가적인 연구 필요.
다른 PEFT 기법들과의 보다 포괄적인 비교 분석 필요.
실제 에지 디바이스 배포 및 성능 평가에 대한 추가적인 검증 필요.
👍