Sign In

FALQON: Accelerating LoRA Fine-tuning with Low-Bit Floating-Point Arithmetic

Created by
  • Haebom
Category
Empty

저자

Kanghyun Choi, Hyeyoon Lee, SunJong Park, Dain Kwon, Jinho Lee

개요

FP8과 같은 저비트 부동 소수점 형식은 최신 GPU 및 NPU에서 하드웨어 지원을 통해 모델 훈련 속도를 높이고 메모리를 절약하지만, 저차원 행렬을 사용하는 LoRA(Low-rank Adaptation)에는 양자화 오버헤드로 인해 속도 향상이 제한됩니다. 본 논문에서는 LoRA 어댑터를 FP8 양자화된 백본에 직접 병합하여 양자화 오버헤드를 제거하는 FALQON 프레임워크를 제안합니다. FALQON은 병합된 어댑터에 대한 순방향 및 역방향 계산을 재구성하고, 양자화된 백본에 대규모 업데이트를 효율적으로 통합하는 행별 프록시 업데이트 메커니즘을 도입합니다. 실험 결과 FALQON은 기존 양자화된 LoRA 방법보다 약 3배의 훈련 속도를 달성하며, 효율적인 대규모 모델 미세 조정을 위한 실용적인 솔루션을 제공합니다. 또한, FALQON의 종단간 FP8 워크플로우는 훈련 후 양자화가 필요하지 않아 효율적인 배포를 지원합니다.

시사점, 한계점

시사점:
FP8 기반의 대규모 모델 미세 조정 훈련 속도 향상.
LoRA와 같은 저차원 행렬 기반의 미세 조정에 특화된 프레임워크 제공.
양자화 오버헤드 감소를 위한 방법론 제시 (어댑터 병합, 계산 재구성, 행별 프록시 업데이트).
훈련 후 양자화 불필요로 배포 효율성 증대.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍